2018年03月的内容

HDFS 副本存放磁盘选择策略

在 HDFS 中，DataNode 将数据块存储到本地文件系统目录中，具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中，一般都会配置多个目录，并且把这些目录分别配置到不同的设备上，比如分别配置到不同的HDD（HDD的全称是Hard Disk Drive）和SSD（全称Solid State Drives，就是我们熟悉的固态硬盘）上。当

w397090770 7年前 (2018-03-28) 5365℃ 3评论24喜欢

Zookeeper

Apache Zookeeper 磁盘空间预分配策略

我们知道，Zookeeper 会将所有事务操作的数据记录到日志文件中，这个文件的存储路径可以通过 dataLogDir 参数配置。在写数据之前，Zookeeper 会采用磁盘空间预分配策略；磁盘空间预分配策略主要有以下几点好处：可以让文件尽可能的占用连续的磁盘扇区，减少后续写入和读取文件时的磁盘寻道开销；迅速占用磁盘空间，防止使用

w397090770 7年前 (2018-03-23) 2097℃ 0评论5喜欢

Distributed System

Paxos Made Simple 译文

原文名：Paxos Made Simple [PDF下载] Leslie Lamport 2001/11/01翻译：phylipsbmy 原译文链接： http://duanple.blog.163.com/blog/static/709717672011440267333/审校：Jerry Lee oldratlee<at>gmail<dot>com译序“在PODC2001会议上，我总是听到人们在抱怨Paxos算法是那么的难以理解。人们总是被那些古希腊的名称弄得晕头转向，而使得他们觉得论文难以理解

w397090770 7年前 (2018-03-12) 3680℃ 0评论9喜欢

Spark

Apache Spark 2.3 重要特性介绍

本文翻译自：Introducing Apache Spark 2.3为了继续实现 Spark 更快，更轻松，更智能的目标，Spark 2.3 在许多模块都做了重要的更新，比如 Structured Streaming 引入了低延迟的连续处理（continuous processing）；支持 stream-to-stream joins；通过改善 pandas UDFs 的性能来提升 PySpark；支持第四种调度引擎 Kubernetes clusters（其他三种分别是自带的独立模式St

w397090770 7年前 (2018-03-01) 7311℃ 3评论32喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

2018年03月的内容

HDFS 副本存放磁盘选择策略

Apache Zookeeper 磁盘空间预分配策略

Paxos Made Simple 译文

Apache Spark 2.3 重要特性介绍