分类：Hadoop

设置Hadoop用户以便访问任何HDFS文件

　　Hadoop分布式文件系统实现了一个和POSIX系统类似的文件和目录的权限模型。每个文件和目录有一个所有者（owner）和一个组（group）。文件或目录对其所有者、同组的其他用户以及所有其他用户分别有着不同的权限。对文件而言，当读取这个文件时需要有r权限，当写入或者追加到文件时需要有w权限。对目录而言，当列出目录内容

w397090770 8年前 (2016-03-21) 7792℃ 9喜欢

使用MapReduce读取XML文件

　　XML（可扩展标记语言，英语：eXtensible Markup Language，简称: XML）是一种标记语言，也是行业标准数据交换交换格式，它很适合在系统之间进行数据存储和交换（话说Hadoop、Hive等的配置文件就是XML格式的）。本文将介绍如何使用MapReduce来读取XML文件。但是Hadoop内部是无法直接解析XML文件；而且XML格式中没有同步标记，所以并行地处

w397090770 8年前 (2016-03-07) 5721℃ 1评论7喜欢

Hadoop YARN公平调度(FairScheduler)介绍

一、介绍　　FairScheduler是一个资源分配方式，在整个时间线上，所有的applications平均的获取资源。Hadoop NextGen能够调度多种类型的资源。默认情况下，FairScheduler只是对内存资源做公平的调度(分配)。当集群中只有一个application运行时，那么此application占用这个集群资源。当其他的applications提交后，那些释放的资源将会被分配给新的

w397090770 9年前 (2015-12-03) 11925℃ 12评论15喜欢

Spark和Hadoop优劣

　　Spark已经取代Hadoop成为最活跃的开源大数据项目。但是，在选择大数据框架时，企业不能因此就厚此薄彼。近日，著名大数据专家Bernard Marr在一篇文章(http://www.forbes.com/sites/bernardmarr/2015/06/22/spark-or-hadoop-which-is-the-best-big-data-framework/)中分析了Spark和Hadoop的异同。　　Hadoop和Spark均是大数据框架，都提供了一些执行常见大数据任务

w397090770 9年前 (2015-12-01) 9453℃ 0评论31喜欢

Hadoop yarn任务调度策略介绍

本文将介绍Hadoop YARN提供的三种任务调度策略：FIFO Scheduler，Capacity Scheduler 和 Fair Scheduler。FIFO Scheduler顾名思义，这就是先进先出(first in, first out)调度策略，所有的application将按照提交的顺序来执行，这些 application 都放在一个队列里，只有在执行完一个之后，才会继续执行下一个。这种调度策略很容易理解，但缺点也很明显

w397090770 9年前 (2015-11-29) 11474℃ 0评论30喜欢

脱离JVM？ Hadoop生态圈的挣扎与演化

　　新世纪以来，互联网及个人终端的普及，传统行业的信息化及物联网的发展等产业变化产生了大量的数据，远远超出了单台机器能够处理的范围，分布式存储与处理成为唯一的选项。从2005年开始，Hadoop从最初Nutch项目的一部分，逐步发展成为目前最流行的大数据处理平台。Hadoop生态圈的各个项目，围绕着大数据的存储，计算，

w397090770 9年前 (2015-11-06) 7955℃ 0评论9喜欢

Hadoop等大数据学习相关电子书[共85本]

　　下面的大数据学习电子书我会陆续上传，敬请关注。一、Hadoop1、Hadoop Application Architectures2、Hadoop: The Definitive Guide, 4th Edition3、Hadoop Security Protecting Your Big Data Platform4、Field Guide to Hadoop An Introduction to Hadoop, Its Ecosystem, and Aligned Technologies5、Hadoop Operations A Guide for Developers and Administrators6、Hadoop Backup and Recovery Solutions

w397090770 9年前 (2015-08-11) 20350℃ 2评论54喜欢

Hadoop&Spark解决二次排序问题(Hadoop篇)

《Hadoop&Spark解决二次排序问题(Spark篇)》《Hadoop&Spark解决二次排序问题(Hadoop篇)》问题描述二次排序就是key之间有序，而且每个Key对应的value也是有序的；也就是对MapReduce的输出(KEY, Value(v1,v2,v3,......,vn))中的Value(v1,v2,v3,......,vn)值进行排序（升序或者降序），使得Value(s1,s2,s3,......,sn)，si ∈ (v1,v2,v3,......,vn)且s1 < s2 < s3 < .....

w397090770 9年前 (2015-08-06) 11279℃ 6评论29喜欢

MapReduce数据输入中InputFormat类源码解析

　　在MapReduce作业中的数据输入和输出必须使用到相关的InputFormat和OutputFormat类，来指定输入数据的格式，InputFormat类的功能是为map任务分割输入的数据。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop　　InputFormat类中必须指定Map输入参数Key和Value的数据类型，以及对输入的数据如何进行分

w397090770 9年前 (2015-07-11) 5422℃ 0评论14喜欢

Apache Hadoop 2.7.1正式版发布（稳定版）

　　Apache Hadoop 2.7.1于美国时间2015年07月06日正式发布，本版本属于稳定版本，是自Hadoop 2.6.0以来又一个稳定版，同时也是Hadoop 2.7.x版本线的第一个稳定版本，也是 2.7版本线的维护版本，变化不大，主要是修复了一些比较严重的Bug（其中修复了131个Bugs和patches）。比较重要的特性请参见《Hadoop 2.7.0发布：不适用于生产和不支持JDK1.6》

w397090770 9年前 (2015-07-08) 17834℃ 0评论23喜欢

上一页
1
···
4
5
6
7
8
9
10
11
12
13
14
...
17
下一页
共 17 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据