欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:988
  2. 浏览总数:12,219,243
  3. 评论:3982
  4. 分类目录:106 个
  5. 注册用户数:6259
  6. 最后更新:2019年1月14日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
大数据猿:
bigdata_ai

 分类:Hadoop

MapReduce作业Uber模式介绍

MapReduce作业Uber模式介绍
大家在提交MapReduce作业的时候肯定看过如下的输出:[code lang="bash"]17/04/17 14:00:38 INFO mapreduce.Job: Running job: job_1472052053889_000117/04/17 14:00:48 INFO mapreduce.Job: Job job_1472052053889_0001 running in uber mode : false17/04/17 14:00:48 INFO mapreduce.Job: map 0% reduce 0%17/04/17 14:00:58 INFO mapreduce.Job: map 100% reduce 0%17/04/17 14:01:04 INFO mapreduce.Job: map 100% reduce 100%[/

w397090770   2年前 (2017-04-18) 1457℃ 2评论11喜欢

Apache Hadoop 2.8.0正式发布

Apache Hadoop 2.8.0正式发布
  时隔两年,Apache Hadoop终于又有大改版,Apache基金会近日发布了Hadoop 2.8版,一次新增了2,919项更新功能或新特色。不过,Hadoop官网建议,2.8.0仍有少数功能在测试,要等到释出2.8.1或是2.8.2版才适合用于正式环境。在2.8.0版众多更新,主要分布于4大套件分别是:共用套件(Common)底层分散式档案系统HDFS套件(HDFS)MapReduce运算

w397090770   2年前 (2017-03-31) 1945℃ 2评论17喜欢

深入理解Hadoop Streaming

深入理解Hadoop Streaming
Hadoop Streaming 是 Hadoop 提供的一个 MapReduce 编程工具,它允许用户使用任何可执行文件、脚本语言或其他编程语言来实现 Mapper 和 Reducer 作业。比如下面的例子[code lang="bash"]mapred streaming \ -input myInputDirs \ -output myOutputDir \ -mapper /bin/cat \ -reducer /usr/bin/wc[/code]Hadoop Streaming程序是如何工作的Hadoop Streaming 使用了 Unix 的标准

w397090770   2年前 (2017-03-21) 3659℃ 0评论13喜欢

HDFS Federation在美团点评的应用与改进

HDFS Federation在美团点评的应用与改进
  HDFS Federation为HDFS系统提供了NameNode横向扩容能力。然而作为一个已实现多年的解决方案,真正应用到已运行多年的大规模集群时依然存在不少的限制和问题。本文以实际应用场景出发,介绍了HDFS Federation在美团点评的实际应用经验。 背景   2015年10月,经过一段时间的优化与改进,美团点评HDFS集群稳定性和性能有显著

zz~~   2年前 (2017-03-17) 1198℃ 0评论7喜欢

使用JavaScript编写MapReduce程序并运行在Hadoop集群上

使用JavaScript编写MapReduce程序并运行在Hadoop集群上
  Hadoop Streaming 是 Hadoop 提供的一个 MapReduce 编程工具,它允许用户使用任何可执行文件、脚本语言或其他编程语言来实现 Mapper 和 Reducer,从而充分利用 Hadoop 并行计算框架的优势和能力,来处理大数据。而我们在官方文档或者是Hadoop权威指南看到的Hadoop Streaming例子都是使用 Ruby 或者 Python 编写的,官方说可以使用任何可执行文件

w397090770   2年前 (2017-03-14) 1260℃ 0评论2喜欢

HDFS ls命令按照时间排序(sort by time)

HDFS ls命令按照时间排序(sort by time)
  我们在使用HDFS Shell的时候只用最频繁的命令可能就是 ls 了,其具体含义我就不介绍了。在使用 ls 的命令时,我们可能想对展示出来的文件按照修改时间排序,也就是最近修改的文件(most recent)显示在最前面。如果你使用的是Hadoop 2.8.0以下版本,内置是不支持按照时间等属性排序的。不过值得高兴的是,我们可以结合Shell命令来

w397090770   2年前 (2017-02-18) 4536℃ 0评论5喜欢

如何给运行在YARN上的MapReduce作业配置内存

如何给运行在YARN上的MapReduce作业配置内存
  如果你经常写MapReduce作业,你肯定看到过以下的异常信息:[code lang="bash"]Application application_1409135750325_48141 failed 2 times due to AM Container forappattempt_1409135750325_48141_000002 exited with exitCode: 143 due to: Container[pid=4733,containerID=container_1409135750325_48141_02_000001] is running beyond physical memory limits.Current usage: 2.0 GB of 2 GB physical memory used; 6.0 GB of

w397090770   2年前 (2016-12-29) 2422℃ 0评论11喜欢

[电子书]Hadoop Blueprints pdf下载

[电子书]Hadoop Blueprints pdf下载
  如果你对Hadoop有基本的了解,并希望将您的知识用于企业的大数据解决方案,那你就来阅读本书吧。本书提供了六个使用Hadoop生态系统解决实际问题的例子,使得您的Hadoop知识提升到一个新的水平。本书作者:Anurag Shrivastava,由Packt出版社于2016年9月出版,全书共316页。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关

zz~~   2年前 (2016-12-20) 2590℃ 1评论6喜欢

[电子书]Hadoop权威指南第3版中文版PDF下载

[电子书]Hadoop权威指南第3版中文版PDF下载
  本书是《Hadoop权威指南》第三版,新版新特色,内容更详细。本书是为程序员写的,可帮助他们分析任何大小的数据集。本书同时也是为管理员写的,帮助他们了解如何设置和运行Hadoop集群。  本书通过丰富的案例学习来解释Hadoop的幕后机理,阐述了Hadoop如何解决现实生活中的具体问题。第3版覆盖Hadoop的新动态,包括新增

zz~~   2年前 (2016-12-16) 13168℃ 0评论31喜欢

Hadoop 3.0磁盘均衡器(diskbalancer)新功能及使用介绍

Hadoop 3.0磁盘均衡器(diskbalancer)新功能及使用介绍
  在HDFS中,DataNode 将数据块存储到本地文件系统目录中,具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中,一般都会配置多个目录,并且把这些目录分别配置到不同的设备上,比如分别配置到不同的HDD(HDD的全称是Hard Disk Drive)和SSD(全称Solid State Drives,就是我们熟悉的固态硬盘)上。

w397090770   2年前 (2016-12-13) 3307℃ 0评论12喜欢