欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

标签:Hadoop

Hadoop

如何给运行在YARN上的MapReduce作业配置内存

如何给运行在YARN上的MapReduce作业配置内存
  如果你经常写MapReduce作业,你肯定看到过以下的异常信息:[code lang="bash"]Application application_1409135750325_48141 failed 2 times due to AM Container forappattempt_1409135750325_48141_000002 exited with exitCode: 143 due to: Container[pid=4733,containerID=container_1409135750325_48141_02_000001] is running beyond physical memory limits.Current usage: 2.0 GB of 2 GB physical memory used; 6.0 GB of

w397090770   7年前 (2016-12-29) 4050℃ 1评论11喜欢

Hadoop

[电子书]Hadoop Blueprints pdf下载

[电子书]Hadoop Blueprints pdf下载
  如果你对Hadoop有基本的了解,并希望将您的知识用于企业的大数据解决方案,那你就来阅读本书吧。本书提供了六个使用Hadoop生态系统解决实际问题的例子,使得您的Hadoop知识提升到一个新的水平。本书作者:Anurag Shrivastava,由Packt出版社于2016年9月出版,全书共316页。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关

zz~~   7年前 (2016-12-20) 3222℃ 1评论6喜欢

Hadoop

[电子书]Hadoop权威指南第3版中文版PDF下载

[电子书]Hadoop权威指南第3版中文版PDF下载
  本书是《Hadoop权威指南》第三版,新版新特色,内容更详细。本书是为程序员写的,可帮助他们分析任何大小的数据集。本书同时也是为管理员写的,帮助他们了解如何设置和运行Hadoop集群。  本书通过丰富的案例学习来解释Hadoop的幕后机理,阐述了Hadoop如何解决现实生活中的具体问题。第3版覆盖Hadoop的新动态,包括新增

zz~~   7年前 (2016-12-16) 17035℃ 0评论42喜欢

Hadoop

Hadoop 3.0磁盘均衡器(diskbalancer)新功能及使用介绍

Hadoop 3.0磁盘均衡器(diskbalancer)新功能及使用介绍
  在HDFS中,DataNode 将数据块存储到本地文件系统目录中,具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中,一般都会配置多个目录,并且把这些目录分别配置到不同的设备上,比如分别配置到不同的HDD(HDD的全称是Hard Disk Drive)和SSD(全称Solid State Drives,就是我们熟悉的固态硬盘)上。

w397090770   7年前 (2016-12-13) 5778℃ 0评论13喜欢

Hadoop

通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]

通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]
在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等。但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下,所以很不适合一次性导入大量数据。本文将针对这个问题介绍如何通过Hbase的BulkLoad方法来快速将海量数据导入到Hbas

w397090770   8年前 (2016-11-28) 17621℃ 2评论52喜欢

Hadoop

[电子书]Big Data Analytics pdf下载

[电子书]Big Data Analytics pdf下载
本书作者Venkat Ankam,由Packt Publishing出版社在2016年09月发行,全书供326页。本书基于Spark 2.0和Hadoop 2.7版本介绍,是适合数据分析师和数据科学家的参考手册,当然也适合那些想入门的人。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop本书的章节[code lang="bash"]Chapter 1: Big Data Analytics at a 10

zz~~   8年前 (2016-11-21) 4576℃ 0评论6喜欢

Hadoop

运行Hbase作业出现cannot access its superclass com.google.protobuf.LiteralByteString异常解决

运行Hbase作业出现cannot access its superclass com.google.protobuf.LiteralByteString异常解决
最近写了一个Spark程序用来读取Hbase中的数据,我的Spark版本是1.6.1,Hbase版本是0.96.2-hadoop2,当程序写完之后,使用下面命令提交作业:[code lang="java"][iteblog@www.iteblog.com $] bin/spark-submit --master yarn-cluster --executor-memory 4g --num-executors 5 --queue iteblog --executor-cores 2 --class com.iteblog.hbase.HBaseRead --jars spark-hbase-connector_2.10-1.0.3.jar,hbase-common-0.9

w397090770   8年前 (2016-11-03) 3597℃ 0评论7喜欢

Hadoop

Hadoop&Spark解决二次排序问题(Spark篇)

Hadoop&Spark解决二次排序问题(Spark篇)
我在《Hadoop&Spark解决二次排序问题(Hadoop篇)》文章中介绍了如何在Hadoop中实现二次排序问题,今天我将介绍如何在Spark中实现。问题描述二次排序就是key之间有序,而且每个Key对应的value也是有序的;也就是对MapReduce的输出(KEY, Value(v1,v2,v3,......,vn))中的Value(v1,v2,v3,......,vn)值进行排序(升序或者降序),使得Value(s1,s2,s3,......,sn),si

w397090770   8年前 (2016-10-08) 6123℃ 0评论12喜欢

Hadoop

Apache Hadoop 3.0.0-alpha1正式发布及其更新介绍

Apache Hadoop 3.0.0-alpha1正式发布及其更新介绍
Apache Hadoop 3.0.0-alpha1相对于hadoop-2.x来说包含了许多重要的改进。这里介绍的是Hadoop 3.0.0的alpha版本,主要是便于检测和收集应用开发人员和其他用户的使用反馈。因为是alpha版本,所以本版本的API稳定性和质量没有保证,如果需要在正式开发中使用,请耐心等待稳定版的发布吧。本文将对Hadoop 3.0.0重要的改进进行介绍。Java最低

zz~~   8年前 (2016-09-22) 3345℃ 0评论7喜欢

Hadoop

四种常见的MapReduce设计模式

四种常见的MapReduce设计模式
  使用MapReduce解决任何问题之前,我们需要考虑如何设计。并不是任何时候都需要map和reduce job。MapReduce设计模式(MapReduce Design Pattern)整个MapReduce作业的阶段主要可以分为以下四种:  1、Input-Map-Reduce-Output  2、Input-Map-Output  3、Input-Multiple Maps-Reduce-Output  4、Input-Map-Combiner-Reduce-Output下面我将一一介绍哪种

w397090770   8年前 (2016-09-01) 5639℃ 0评论16喜欢