欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:978
  2. 浏览总数:11,978,653
  3. 评论:3938
  4. 分类目录:106 个
  5. 注册用户数:6129
  6. 最后更新:2018年12月15日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
大数据猿:
bigdata_ai

Apache Hadoop 2.3.0发布

  分布式计算开源框架Hadoop近日发布了今年的第一个版本Hadoop-2.3.0,新版本不仅增强了核心平台的大量功能,同时还修复了大量bug。新版本对HDFS做了两个非常重要的增强:(1)、支持异构的存储层次;(2)、通过数据节点为存储在HDFS中的数据提供了内存缓存功能。
  借助于HDFS对异构存储层次的支持,我们将能够在同一个Hadoop集群上使用不同的存储类型。此外我们还可以使用不同的存储媒介——例如商业磁盘、企业级磁盘、SSD或者内存等——更好地权衡成本和收益。如果你想更详细地了解与该增强相关的信息,那么可以访问这里。类似地,在新版本中我们还能使用Hadoop集群中的可用内存集中地缓存并管理数据节点内存中的数据集。MapReduce、Hive、Pig等类似的应用程序将能够申请内存进行缓存,然后直接从数据节点的地址空间中读取内容,通过完全避免磁盘操作极大地提高扫描效率。Hive现在正在为ORC文件实现一个非常有效的零复制读取路径,该功能就使用了这项新技术。
  在YARN方面,令我们非常兴奋的事情是资源管理器自动故障转移功能已经进入尾声,虽然在2.3.0这个版本中该功能还没有被发布,但是极有可能会包含在Hadoop-2.4中。此外,2.3.0版本还对YARN做了一些关键的运维方面的增强,例如更好的日志、错误处理和诊断等。
  MapReduce的一个关键增强MAPREDUCE-4421。借助于该功能我们已经不再需要在每一台机器上安装MapReduce二进制程序,仅仅需要通过YARN分布式缓存将一个MapReduce包复制到HDFS中就可以了。当然,新版本还包含大量的bug修复以及其他方面的增强。例如:
  (1)、YarnClientImpl类中的异步轮询操作引入了超时;
  (2)、修复了RMFatalEventDispatcher没有记录事件原因的问题;
  (3)、HA配置不会影响节点管理器的RPC地址;
  (4)、RM Web UI和REST API统一使用YarnApplicationState;
  (5)、在RpcResponseHeader中包含RPC错误信息,而不是将其分开发送;
  (6)、向jetty/httpserver中添加了请求日志;
  (7)、修复了将dfs.checksum.type定义为NULL之后写文件和hflush会抛出java.lang.ArrayIndexOutOfBoundsException的问题。
  如果想要了解更多的信息,请到这个连接里面详细了解http://hadoop.apache.org/docs/r2.3.0/hadoop-project-dist/hadoop-common/releasenotes.html。不得不说的是,整个社区在Hadoop-2.3.0版本的发布过程中再次发挥了非常重要的作用,他们提交了很多非常重要的内容。最后,让我们展望一下2.4版本中将会包含的一些非常令人兴奋的功能:
  (1)、HDFS将会支持ACL;
  (2)、关键的运营能力,例如HDFS支持滚动更新,使用ProtoBufs序列化/反序列化FSImage;
  (3)、YARN资源管理器自动故障转移功能;
  (4)、YARN通用应用程序时间轴和历史服务,使得在YARN中开发和管理新框架及服务变得非常容易。

  本文转载自http://www.infoq.com/cn/news/2014/02/hadoop-2-3-release
  英文原文http://hortonworks.com/blog/apache-hadoop-2-3-0-released/
本博客文章除特别声明,全部都是原创!
转载本文请加上:转载自过往记忆(https://www.iteblog.com/)
本文链接: 【Apache Hadoop 2.3.0发布】(https://www.iteblog.com/archives/965.html)
喜欢 (1)
分享 (0)
发表我的评论
取消评论

表情
本博客评论系统带有自动识别垃圾评论功能,请写一些有意义的评论,谢谢!