标签：Hadoop

三种方法实现Hadoop(MapReduce)全局排序(2)

我在前面的文章介绍了MapReduce中两种全排序的方法及其实现。但是上面的两种方法都是有很大的局限性：方法一在数据量很大的时候会出现OOM问题；方法二虽然能够将数据分散到多个Reduce中，但是问题也很明显：我们必须手动地找到各个Reduce的分界点，尽量使得分散到每个Reduce的数据量均衡。而且每次修改Reduce的个数时，都得

w397090770 7年前 (2017-05-12) 7193℃ 14评论20喜欢

Hadoop

解决Spark shell模式下初始化Job出现的异常

Spark 的 shell 作为一个强大的交互式数据分析工具，提供了一个简单的方式来学习 API。它可以使用 Scala(在 Java 虚拟机上运行现有的 Java 库的一个很好方式) 或 Python。我们很可能会在Spark Shell模式下运行下面的测试代码：如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop[code lang="scala"]scala> imp

w397090770 7年前 (2017-04-26) 2864℃ 0评论9喜欢

Hadoop

使用CombineFileInputFormat来优化Hadoop小文件

我们都知道，HDFS设计是用来存储海量数据的，特别适合存储TB、PB量级别的数据。但是随着时间的推移，HDFS上可能会存在大量的小文件，这里说的小文件指的是文件大小远远小于一个HDFS块（128MB）的大小；HDFS上存在大量的小文件至少会产生以下影响：消耗NameNode大量的内存延长MapReduce作业的总运行时间如果想及时了解Spar

w397090770 7年前 (2017-04-25) 6570℃ 1评论18喜欢

Hadoop

使用Hadoop Configuration一些需要注意的细节

我们在使用Hadoop、Spark或者是Hbase，最常遇到的问题就是进行相关系统的配置，比如集群的URL地址，MapReduce临时目录、最终输出路径等。这些属性需要有一个系统（类）进行管理。然而，Hadoop没有使用 Java.util.Properties 管理配置文件，也没有使用Apache Jakarta Commons Configuration管理配置文件，而是单独开发了一个配置文件管理类，这个类就

w397090770 7年前 (2017-04-21) 7557℃ 0评论18喜欢

Hadoop

MapReduce作业Uber模式介绍

大家在提交MapReduce作业的时候肯定看过如下的输出：[code lang="bash"]17/04/17 14:00:38 INFO mapreduce.Job: Running job: job_1472052053889_000117/04/17 14:00:48 INFO mapreduce.Job: Job job_1472052053889_0001 running in uber mode : false17/04/17 14:00:48 INFO mapreduce.Job: map 0% reduce 0%17/04/17 14:00:58 INFO mapreduce.Job: map 100% reduce 0%17/04/17 14:01:04 INFO mapreduce.Job: map 100% reduce 100%[/

w397090770 7年前 (2017-04-18) 3500℃ 2评论11喜欢

Hadoop

Apache Hadoop 2.8.0正式发布

　　时隔两年，Apache Hadoop终于又有大改版，Apache基金会近日发布了Hadoop 2.8版，一次新增了2,919项更新功能或新特色。不过，Hadoop官网建议，2.8.0仍有少数功能在测试，要等到释出2.8.1或是2.8.2版才适合用于正式环境。在2.8.0版众多更新，主要分布于4大套件分别是：共用套件（Common）底层分散式档案系统HDFS套件(HDFS)MapReduce运算

w397090770 7年前 (2017-03-31) 2694℃ 2评论17喜欢

Hadoop

深入理解Hadoop Streaming

Hadoop Streaming 是 Hadoop 提供的一个 MapReduce 编程工具，它允许用户使用任何可执行文件、脚本语言或其他编程语言来实现 Mapper 和 Reducer 作业。比如下面的例子[code lang="bash"]mapred streaming \ -input myInputDirs \ -output myOutputDir \ -mapper /bin/cat \ -reducer /usr/bin/wc[/code]Hadoop Streaming程序是如何工作的Hadoop Streaming 使用了 Unix 的标准

w397090770 7年前 (2017-03-21) 9892℃ 0评论15喜欢

Hadoop

HDFS Federation在美团点评的应用与改进

　　HDFS Federation为HDFS系统提供了NameNode横向扩容能力。然而作为一个已实现多年的解决方案，真正应用到已运行多年的大规模集群时依然存在不少的限制和问题。本文以实际应用场景出发，介绍了HDFS Federation在美团点评的实际应用经验。背景　　2015年10月，经过一段时间的优化与改进，美团点评HDFS集群稳定性和性能有显著

zz~~ 7年前 (2017-03-17) 1986℃ 0评论7喜欢

Hadoop

使用JavaScript编写MapReduce程序并运行在Hadoop集群上

　　Hadoop Streaming 是 Hadoop 提供的一个 MapReduce 编程工具，它允许用户使用任何可执行文件、脚本语言或其他编程语言来实现 Mapper 和 Reducer，从而充分利用 Hadoop 并行计算框架的优势和能力，来处理大数据。而我们在官方文档或者是Hadoop权威指南看到的Hadoop Streaming例子都是使用 Ruby 或者 Python 编写的，官方说可以使用任何可执行文件

w397090770 7年前 (2017-03-14) 2629℃ 0评论2喜欢

Hadoop

HDFS ls命令按照时间排序(sort by time)

　　我们在使用HDFS Shell的时候只用最频繁的命令可能就是 ls 了，其具体含义我就不介绍了。在使用 ls 的命令时，我们可能想对展示出来的文件按照修改时间排序，也就是最近修改的文件(most recent)显示在最前面。如果你使用的是Hadoop 2.8.0以下版本，内置是不支持按照时间等属性排序的。不过值得高兴的是，我们可以结合Shell命令来

w397090770 7年前 (2017-02-18) 12287℃ 0评论9喜欢

上一页
1
2
3
4
5
6
7
8
9
10
...
17
下一页
共 17 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

标签：Hadoop

三种方法实现Hadoop(MapReduce)全局排序(2)

解决Spark shell模式下初始化Job出现的异常

使用CombineFileInputFormat来优化Hadoop小文件

使用Hadoop Configuration一些需要注意的细节

MapReduce作业Uber模式介绍

Apache Hadoop 2.8.0正式发布

深入理解Hadoop Streaming

HDFS Federation在美团点评的应用与改进

使用JavaScript编写MapReduce程序并运行在Hadoop集群上

HDFS ls命令按照时间排序(sort by time)