分类：Hadoop

HDFS Federation在美团点评的应用与改进

　　HDFS Federation为HDFS系统提供了NameNode横向扩容能力。然而作为一个已实现多年的解决方案，真正应用到已运行多年的大规模集群时依然存在不少的限制和问题。本文以实际应用场景出发，介绍了HDFS Federation在美团点评的实际应用经验。背景　　2015年10月，经过一段时间的优化与改进，美团点评HDFS集群稳定性和性能有显著

zz~~ 8年前 (2017-03-17) 2076℃ 0评论7喜欢

使用JavaScript编写MapReduce程序并运行在Hadoop集群上

　　Hadoop Streaming 是 Hadoop 提供的一个 MapReduce 编程工具，它允许用户使用任何可执行文件、脚本语言或其他编程语言来实现 Mapper 和 Reducer，从而充分利用 Hadoop 并行计算框架的优势和能力，来处理大数据。而我们在官方文档或者是Hadoop权威指南看到的Hadoop Streaming例子都是使用 Ruby 或者 Python 编写的，官方说可以使用任何可执行文件

w397090770 8年前 (2017-03-14) 2768℃ 0评论2喜欢

HDFS ls命令按照时间排序(sort by time)

　　我们在使用HDFS Shell的时候只用最频繁的命令可能就是 ls 了，其具体含义我就不介绍了。在使用 ls 的命令时，我们可能想对展示出来的文件按照修改时间排序，也就是最近修改的文件(most recent)显示在最前面。如果你使用的是Hadoop 2.8.0以下版本，内置是不支持按照时间等属性排序的。不过值得高兴的是，我们可以结合Shell命令来

w397090770 9年前 (2017-02-18) 12695℃ 0评论9喜欢

如何给运行在YARN上的MapReduce作业配置内存

　　如果你经常写MapReduce作业，你肯定看到过以下的异常信息：[code lang="bash"]Application application_1409135750325_48141 failed 2 times due to AM Container forappattempt_1409135750325_48141_000002 exited with exitCode: 143 due to: Container[pid=4733,containerID=container_1409135750325_48141_02_000001] is running beyond physical memory limits.Current usage: 2.0 GB of 2 GB physical memory used; 6.0 GB of

w397090770 9年前 (2016-12-29) 4309℃ 1评论11喜欢

[电子书]Hadoop Blueprints pdf下载

　　如果你对Hadoop有基本的了解，并希望将您的知识用于企业的大数据解决方案，那你就来阅读本书吧。本书提供了六个使用Hadoop生态系统解决实际问题的例子，使得您的Hadoop知识提升到一个新的水平。本书作者：Anurag Shrivastava，由Packt出版社于2016年9月出版，全书共316页。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关

zz~~ 9年前 (2016-12-20) 3259℃ 1评论6喜欢

[电子书]Hadoop权威指南第3版中文版PDF下载

　　本书是《Hadoop权威指南》第三版，新版新特色，内容更详细。本书是为程序员写的，可帮助他们分析任何大小的数据集。本书同时也是为管理员写的，帮助他们了解如何设置和运行Hadoop集群。　　本书通过丰富的案例学习来解释Hadoop的幕后机理，阐述了Hadoop如何解决现实生活中的具体问题。第3版覆盖Hadoop的新动态，包括新增

zz~~ 9年前 (2016-12-16) 17488℃ 0评论43喜欢

Hadoop 3.0磁盘均衡器(diskbalancer)新功能及使用介绍

　　在HDFS中，DataNode 将数据块存储到本地文件系统目录中，具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中，一般都会配置多个目录，并且把这些目录分别配置到不同的设备上，比如分别配置到不同的HDD（HDD的全称是Hard Disk Drive）和SSD（全称Solid State Drives，就是我们熟悉的固态硬盘）上。

w397090770 9年前 (2016-12-13) 5953℃ 0评论13喜欢

通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]

在第一次建立Hbase表的时候，我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中，或者通过MR方式等。但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下，所以很不适合一次性导入大量数据。本文将针对这个问题介绍如何通过Hbase的BulkLoad方法来快速将海量数据导入到Hbas

w397090770 9年前 (2016-11-28) 18021℃ 2评论52喜欢

[电子书]Big Data Analytics pdf下载

本书作者Venkat Ankam，由Packt Publishing出版社在2016年09月发行，全书供326页。本书基于Spark 2.0和Hadoop 2.7版本介绍，是适合数据分析师和数据科学家的参考手册，当然也适合那些想入门的人。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop本书的章节[code lang="bash"]Chapter 1: Big Data Analytics at a 10

zz~~ 9年前 (2016-11-21) 4810℃ 0评论6喜欢

运行Hbase作业出现cannot access its superclass com.google.protobuf.LiteralByteString异常解决

最近写了一个Spark程序用来读取Hbase中的数据，我的Spark版本是1.6.1，Hbase版本是0.96.2-hadoop2，当程序写完之后，使用下面命令提交作业：[code lang="java"][iteblog@www.iteblog.com $] bin/spark-submit --master yarn-cluster --executor-memory 4g --num-executors 5 --queue iteblog --executor-cores 2 --class com.iteblog.hbase.HBaseRead --jars spark-hbase-connector_2.10-1.0.3.jar,hbase-common-0.9

w397090770 9年前 (2016-11-03) 3716℃ 0评论7喜欢

上一页
1
2
3
4
5
6
7
8
9
10
11
...
17
下一页
共 17 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据