欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:1035
  2. 浏览总数:13,399,843
  3. 评论:4085
  4. 分类目录:108 个
  5. 注册用户数:6826
  6. 最后更新:2019年6月19日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
Hadoop技术博文:
bigdata_ai

 分类:Hadoop

使用CombineFileInputFormat来优化Hadoop小文件

使用CombineFileInputFormat来优化Hadoop小文件
我们都知道,HDFS设计是用来存储海量数据的,特别适合存储TB、PB量级别的数据。但是随着时间的推移,HDFS上可能会存在大量的小文件,这里说的小文件指的是文件大小远远小于一个HDFS块(128MB)的大小;HDFS上存在大量的小文件至少会产生以下影响:消耗NameNode大量的内存延长MapReduce作业的总运行时间如果想及时了解Spar

w397090770   2年前 (2017-04-25) 4531℃ 1评论18喜欢

使用Hadoop Configuration一些需要注意的细节

使用Hadoop Configuration一些需要注意的细节
我们在使用Hadoop、Spark或者是Hbase,最常遇到的问题就是进行相关系统的配置,比如集群的URL地址,MapReduce临时目录、最终输出路径等。这些属性需要有一个系统(类)进行管理。然而,Hadoop没有使用 Java.util.Properties 管理配置文件,也没有使用Apache Jakarta Commons Configuration管理配置文件,而是单独开发了一个配置文件管理类,这个类就

w397090770   2年前 (2017-04-21) 3298℃ 0评论16喜欢

MapReduce作业Uber模式介绍

MapReduce作业Uber模式介绍
大家在提交MapReduce作业的时候肯定看过如下的输出:[code lang="bash"]17/04/17 14:00:38 INFO mapreduce.Job: Running job: job_1472052053889_000117/04/17 14:00:48 INFO mapreduce.Job: Job job_1472052053889_0001 running in uber mode : false17/04/17 14:00:48 INFO mapreduce.Job: map 0% reduce 0%17/04/17 14:00:58 INFO mapreduce.Job: map 100% reduce 0%17/04/17 14:01:04 INFO mapreduce.Job: map 100% reduce 100%[/

w397090770   2年前 (2017-04-18) 1740℃ 2评论11喜欢

Apache Hadoop 2.8.0正式发布

Apache Hadoop 2.8.0正式发布
  时隔两年,Apache Hadoop终于又有大改版,Apache基金会近日发布了Hadoop 2.8版,一次新增了2,919项更新功能或新特色。不过,Hadoop官网建议,2.8.0仍有少数功能在测试,要等到释出2.8.1或是2.8.2版才适合用于正式环境。在2.8.0版众多更新,主要分布于4大套件分别是:共用套件(Common)底层分散式档案系统HDFS套件(HDFS)MapReduce运算

w397090770   2年前 (2017-03-31) 2047℃ 2评论17喜欢

深入理解Hadoop Streaming

深入理解Hadoop Streaming
Hadoop Streaming 是 Hadoop 提供的一个 MapReduce 编程工具,它允许用户使用任何可执行文件、脚本语言或其他编程语言来实现 Mapper 和 Reducer 作业。比如下面的例子[code lang="bash"]mapred streaming \ -input myInputDirs \ -output myOutputDir \ -mapper /bin/cat \ -reducer /usr/bin/wc[/code]Hadoop Streaming程序是如何工作的Hadoop Streaming 使用了 Unix 的标准

w397090770   2年前 (2017-03-21) 4845℃ 0评论13喜欢

HDFS Federation在美团点评的应用与改进

HDFS Federation在美团点评的应用与改进
  HDFS Federation为HDFS系统提供了NameNode横向扩容能力。然而作为一个已实现多年的解决方案,真正应用到已运行多年的大规模集群时依然存在不少的限制和问题。本文以实际应用场景出发,介绍了HDFS Federation在美团点评的实际应用经验。 背景   2015年10月,经过一段时间的优化与改进,美团点评HDFS集群稳定性和性能有显著

zz~~   2年前 (2017-03-17) 1361℃ 0评论7喜欢

使用JavaScript编写MapReduce程序并运行在Hadoop集群上

使用JavaScript编写MapReduce程序并运行在Hadoop集群上
  Hadoop Streaming 是 Hadoop 提供的一个 MapReduce 编程工具,它允许用户使用任何可执行文件、脚本语言或其他编程语言来实现 Mapper 和 Reducer,从而充分利用 Hadoop 并行计算框架的优势和能力,来处理大数据。而我们在官方文档或者是Hadoop权威指南看到的Hadoop Streaming例子都是使用 Ruby 或者 Python 编写的,官方说可以使用任何可执行文件

w397090770   2年前 (2017-03-14) 1483℃ 0评论2喜欢

HDFS ls命令按照时间排序(sort by time)

HDFS ls命令按照时间排序(sort by time)
  我们在使用HDFS Shell的时候只用最频繁的命令可能就是 ls 了,其具体含义我就不介绍了。在使用 ls 的命令时,我们可能想对展示出来的文件按照修改时间排序,也就是最近修改的文件(most recent)显示在最前面。如果你使用的是Hadoop 2.8.0以下版本,内置是不支持按照时间等属性排序的。不过值得高兴的是,我们可以结合Shell命令来

w397090770   2年前 (2017-02-18) 5660℃ 0评论6喜欢

如何给运行在YARN上的MapReduce作业配置内存

如何给运行在YARN上的MapReduce作业配置内存
  如果你经常写MapReduce作业,你肯定看到过以下的异常信息:[code lang="bash"]Application application_1409135750325_48141 failed 2 times due to AM Container forappattempt_1409135750325_48141_000002 exited with exitCode: 143 due to: Container[pid=4733,containerID=container_1409135750325_48141_02_000001] is running beyond physical memory limits.Current usage: 2.0 GB of 2 GB physical memory used; 6.0 GB of

w397090770   3年前 (2016-12-29) 2557℃ 0评论11喜欢

[电子书]Hadoop Blueprints pdf下载

[电子书]Hadoop Blueprints pdf下载
  如果你对Hadoop有基本的了解,并希望将您的知识用于企业的大数据解决方案,那你就来阅读本书吧。本书提供了六个使用Hadoop生态系统解决实际问题的例子,使得您的Hadoop知识提升到一个新的水平。本书作者:Anurag Shrivastava,由Packt出版社于2016年9月出版,全书共316页。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关

zz~~   3年前 (2016-12-20) 2675℃ 1评论6喜欢