欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:978
  2. 浏览总数:11,981,149
  3. 评论:3939
  4. 分类目录:106 个
  5. 注册用户数:6130
  6. 最后更新:2018年12月15日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
大数据猿:
bigdata_ai

Apache Hadoop 2.3.0三大重要的提升

  hadoop更新实在是太快了,现在已经更新到Hadoop-2.3.0版本(2014-02-11)。看了一下文档,和之前Hadoop-2.2.0的文档大部分类似,这篇文章主要是翻译一下Hadoop-2.3.0的文档。
  Apache Hadoop 2.3.0和之前的Hadoop-1.x稳定版有了很大的提升。本篇文章主要是简要说说Hadoop 2.3.0中的HDFS和Mapreduce的提升(4、5两个特性是Hadoop2.x开始就支持的)。
  (1)、HDFS支持异构的存储结构:Support for Heterogeneous Storage hierarchy in HDFS;
  (2)、HDFS数据可以缓存到内存中,支持集中式管理:In-memory cache for HDFS data with centralized administration and management.
  (3)、在YARN中,将MapReduce类库从HDFS中分离出来:Simplified distribution of MapReduce binaries via HDFS in YARN Distributed Cache.
  (4)、HDFS Federation
  为了提高name service的水平扩展性,HDFS Federation用到了多个互相独立的NameNodes/Nodespaces。这些NameNodes之间是联合的关系,这就是说,这些NameNodes之间是独立的,并且NameNodes之间也不需要互相协作。DataNode主要是被所有的NameNodes存储块数据。所有的DataNode都需要向集群中所有的NameNode注册自己,DataNodes会每隔一段时间向所有的NameNode发送心跳和处理来自NameNode的命令。
更多关于HDFS Federation,请参见《 HDFS Federation》。
  (5)、下一代的Mapreduce(也称为YARN,MRv2)
  Hadoop 2.3.0的体系结构把以前JobTracker的两个主要的功能分开来了,这两个主要的功能为:资源管理和作业管理。新的资源管理器管理全局的资源分配;而每个application的ApplicationMaster管理自己的作业调度和协作。
  每一个application在典型的MapReduce中是一个单独的作业;同时你也可以把application看作一个DAG(有向循环图)。
  从计算角度看,ResourceManager和每台机器上的NodeManager守护线程管理在那台机器上用户提交的作业。
  实际上,每个application的ApplicationMaster是一个特殊的框架库,负责和ResourceManager谈判以此得到需要的资源,并且和NodeManager(s)一起工作来运行和监控作业。
  下图是Hadoop1.x和Hadoop2.x之间架构的变化。
hive metastore

本博客文章除特别声明,全部都是原创!
转载本文请加上:转载自过往记忆(https://www.iteblog.com/)
本文链接: 【Apache Hadoop 2.3.0三大重要的提升】(https://www.iteblog.com/archives/959.html)
喜欢 (2)
分享 (0)
发表我的评论
取消评论

表情
本博客评论系统带有自动识别垃圾评论功能,请写一些有意义的评论,谢谢!