分类：海量数据处理

操作系统级别对Hadoop性能优化

　　由于Hadoop自身的一些特点，它只适合用于将Linux作为操作系统的生产环境。在实际应用场景中，管理员适当对Linux内核参数进行调优，可在一定程度上提高作业的运行效率，比较有用的调整选项如下。一、增大同时打开的文件描述符和网络连接上限　　在Hadoop集群中，由于涉及的作业和任务数目非常多，对于某个节点，由于

w397090770 10年前 (2014-04-02) 12900℃ 1评论7喜欢

Hadoop优化与调整

io.file.buffer.size　　hadoop访问文件的IO操作都需要通过代码库。因此，在很多情况下，io.file.buffer.size都被用来设置缓存的大小。不论是对硬盘或者是网络操作来讲，较大的缓存都可以提供更高的数据传输，但这也就意味着更大的内存消耗和延迟。这个参数要设置为系统页面大小的倍数，以byte为单位，默认值是4KB，一般情况下，可以

w397090770 10年前 (2014-04-01) 30126℃ 2评论14喜欢

Hadoop-2.2.0使用lzo压缩文件作为输入文件

　　在《Hadoop 2.2.0安装和配置lzo》文章中介绍了如何基于 Hadoop 2.2.0安装lzo。里面简单介绍了如果在Hive里面使用lzo数据。今天主要来说说如何在Hadoop 2.2.0中使用lzo压缩文件当作的数据。　　lzo压缩默认的是不支持切分的，也就是说，如果直接把lzo文件当作Mapreduce任务的输入，那么Mapreduce只会用一个Map来处理这个输入文件，这显然

w397090770 10年前 (2014-03-28) 20410℃ 7评论8喜欢

Hadoop 2.2.0编译hadoop-eclipse-plugin插件

　　前提条件：　　1、安装好jdk1.6或以上版本　　2、部署好Hadoop 2.2.0（可以参见本博客《Hadoop2.2.0完全分布式集群平台安装与设置》）　　3、安装好ant，这很简单：[code lang="JAVA"]$ wget http://mirrors.cnnic.cn/apache/ant/binaries/apache-ant-1.9.3-bin.tar.gz$ tar -zxvf apache-ant-1.9.3-bin.tar.gz[/code]然后设置好ANT_HOME和PATH就行　　4、安装好相

w397090770 10年前 (2014-03-26) 23692℃ 1评论35喜欢

Hadoop 2.2.0安装和配置lzo

　　Hadoop经常用于处理大量的数据，如果期间的输出数据、中间数据能压缩存储，对系统的I/O性能会有提升。综合考虑压缩、解压速度、是否支持split，目前lzo是最好的选择。LZO（LZO是Lempel-Ziv-Oberhumer的缩写）是一种高压缩比和解压速度极快的编码，它的特点是解压缩速度非常快，无损压缩，压缩后的数据能准确还原，lzo是基于block

w397090770 10年前 (2014-03-25) 17451℃ 4评论10喜欢

Hadoop web页面的授权设定

　　一、相关概念　　在默认情况下，Hadoop相关的WEB页面（JobTracker, NameNode, TaskTrackers and DataNodes）是不需要什么权限验证就可以直接进入的，谁都可以查看到当前集群上有哪些作业在运行，这对安全来说是很不合理的。我们应该限定用户来访问Hadoop相关的WEB页面，只有授权的用户才能看到自己授权的作业等信息，而不应该看到他不

w397090770 10年前 (2014-03-25) 12784℃ 2评论8喜欢

Hadoop服务层授权控制

　　Hadoop在服务层进行了授权（Service Level Authorization）控制，这是一种机制可以保证客户和Hadoop特定的服务进行链接，比如说我们可以控制哪个用户/哪些组可以提交Mapreduce任务。所有的这些配置可以在$HADOOP_CONF_DIR/hadoop-policy.xml中进行配置。它是最基础的访问控制，优先于文件权限和mapred队列权限验证。可以看看下图[caption id="attach

w397090770 10年前 (2014-03-20) 8990℃ 0评论8喜欢

Hadoop作业JVM堆大小设置优化

　　前段时间，公司Hadoop集群整体的负载很高，查了一下原因，发现原来是客户端那边在每一个作业上擅自配置了很大的堆空间，从而导致集群负载很高。下面我就来讲讲怎么来现在客户端那边的JVM堆大小的设置。　　我们知道，在mapred-site.xml配置文件里面有个mapred.child.java.opts配置，专门来配置一些诸如堆、垃圾回收之类的。看

w397090770 10年前 (2014-03-18) 19027℃ 0评论10喜欢

Hadoop小文件优化

　　先来了解一下Hadoop中何为小文件：小文件指的是那些文件大小要比HDFS的块大小(在Hadoop1.x的时候默认块大小64M，可以通过dfs.blocksize来设置；但是到了Hadoop 2.x的时候默认块大小为128MB了，可以通过dfs.block.size设置)小的多的文件。如果在HDFS中存储小文件，那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的

w397090770 10年前 (2014-03-17) 15261℃ 1评论10喜欢

Hadoop日志存放路径详解

　　如果你想知道Spark作业运行日志，可以查看这里《Spark应用程序运行的日志存在哪里》　　Hadoop的日志有很多种，很多初学者往往遇到错而不知道怎么办，其实这时候就应该去看看日志里面的输出，这样往往可以定位到错误。Hadoop的日志大致可以分为两类：（1）、Hadoop系统服务输出的日志；（2）、Mapreduce程序输出来的日志

w397090770 10年前 (2014-03-14) 52720℃ 5评论40喜欢

上一页
1
2
3
4
5
6
7
8
9
下一页
共 9 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据