2014年04月的内容

在Hive中使用Avro

　　Avro（读音类似于[ævrə]）是Hadoop的一个子项目，由Hadoop的创始人Doug Cutting牵头开发。Avro是一个数据序列化系统，设计用于支持大批量数据交换的应用。它的主要特点有：支持二进制序列化方式，可以便捷，快速地处理大量数据；动态语言友好，Avro提供的机制使动态语言可以方便地处理Avro数据。　　在Hive中，我们可以将数据

w397090770 11年前 (2014-04-08) 15980℃ 1评论6喜欢

Hadoop

操作系统级别对Hadoop性能优化

　　由于Hadoop自身的一些特点，它只适合用于将Linux作为操作系统的生产环境。在实际应用场景中，管理员适当对Linux内核参数进行调优，可在一定程度上提高作业的运行效率，比较有用的调整选项如下。一、增大同时打开的文件描述符和网络连接上限　　在Hadoop集群中，由于涉及的作业和任务数目非常多，对于某个节点，由于

w397090770 11年前 (2014-04-02) 13199℃ 1评论7喜欢

Hadoop

Hadoop优化与调整

io.file.buffer.size　　hadoop访问文件的IO操作都需要通过代码库。因此，在很多情况下，io.file.buffer.size都被用来设置缓存的大小。不论是对硬盘或者是网络操作来讲，较大的缓存都可以提供更高的数据传输，但这也就意味着更大的内存消耗和延迟。这个参数要设置为系统页面大小的倍数，以byte为单位，默认值是4KB，一般情况下，可以

w397090770 11年前 (2014-04-01) 30433℃ 2评论14喜欢

上一页
1
2
共 2 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

2014年04月的内容

在Hive中使用Avro

操作系统级别对Hadoop性能优化

Hadoop优化与调整