五月 – 2016 – 过往记忆

Hadoop 3.0纠删码(Erasure Coding)：节省一半存储空间

　　随着大数据技术的发展，HDFS作为Hadoop的核心模块之一得到了广泛的应用。为了系统的可靠性，HDFS通过复制来实现这种机制。但在HDFS中每一份数据都有两个副本，这也使得存储利用率仅为1/3，每TB数据都需要占用3TB的存储空间。随着数据量的增长，复制的代价也变得越来越明显：传统的3份复制相当于增加了200%的存储开销，给存

w397090770 9年前 (2016-05-30) 9295℃ 0评论36喜欢

Spark

Apache Spark作为编译器：深入介绍新的Tungsten执行引擎

本文原文：Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop Deep dive into the new Tungsten execution engine：https://databricks.com/blog/2016/05/23/apache-spark-as-a-compiler-joining-a-billion-rows-per-second-on-a-laptop.html本文已经投稿自：http://geek.csdn.net/news/detail/77005　　《Spark 2.0技术预览：更容易、更快速、更智能》文中简单地介绍了Spark 2.0相关

w397090770 9年前 (2016-05-27) 6047℃ 1评论16喜欢

Spark

SparkSession：新的切入点

　　在Spark 1.x版本，我们收到了很多询问SparkContext, SQLContext和HiveContext之间关系的问题。当人们想使用DataFrame API的时候把HiveContext当做切入点的确有点奇怪。在Spark 2.0，引入了SparkSession，作为一个新的切入点并且包含了SQLContext和HiveContext的功能。为了向后兼容，SQLContext和HiveContext被保存下来。SparkSession拥有许多特性，下面将展示SparkS

w397090770 9年前 (2016-05-26) 14057℃ 0评论13喜欢

Spark

Spark 2.0技术预览版正式发布下载

　　在过去Spark社区创建了Spark 2.0的技术预览版，经过几天的投票，目前该技术预览版今天正式公布。《Spark 2.0技术预览：更容易、更快速、更智能》文章中详细介绍了Spark 2.0给我们带来的新功能，总体上Spark 2.0提升了下面三点：　　1. 对标准的SQL支持，统一DataFrame和Dataset API。现在已经可以运行TPC-DS所有的99个查询，这99个查

w397090770 9年前 (2016-05-25) 2645℃ 0评论3喜欢

Kafka

Apache Kafka 0.10.0.0稳定版发布及其新特性介绍

Apache Kafka 0.10.0.0于美国时间2016年5月24日正式发布。Apache Kafka 0.10.0.0是Apache Kafka的主要版本，此版本带来了一系列的新特性和功能加强。本文将对此版本的重要点进行说明。Kafka StreamsKafka Streams在几个月前由Confluent Platform首先在其平台的技术预览中行提出，目前已经在Apache Kafka 0.10.0.0上可用了。Kafka Streams其实是一套类库，它使

w397090770 9年前 (2016-05-25) 12411℃ 0评论25喜欢

Spark

《Apache Spark 2.0: Faster, Easier, and Smarter》ppt下载

《Spark 2.0技术预览：更容易、更快速、更智能》文章介绍了Spark的三大新特性，本文是Reynold Xin在2016年5月5日的演讲，视频可以到这里看：http://go.databricks.com/apache-spark-2.0-presented-by-databricks-co-founder-reynold-xinPPT下载地址见下面。

w397090770 9年前 (2016-05-24) 3304℃ 0评论4喜欢

Spark

Spark 2.0介绍：从RDD API迁移到DataSet API

　　《Spark 2.0技术预览：更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化，为该框架明年的发展方向奠定了方向，所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一

w397090770 9年前 (2016-05-24) 13097℃ 0评论26喜欢

Spark

Spark 2.0介绍：Dataset介绍和使用

　　《Spark 2.0技术预览：更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化，为该框架明年的发展奠定了方向，所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列

w397090770 9年前 (2016-05-23) 22167℃ 0评论27喜欢

Spark

Spark 2.0介绍：SparkSession创建和使用相关API

　　《Spark 2.0技术预览：更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化，为该框架明年的发展方向奠定了方向，所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一

w397090770 9年前 (2016-05-19) 21008℃ 1评论32喜欢

Zookeeper

Zookeeper四字命令

　　ZooKeeper 支持某些特定的四字命令(The Four Letter Words)与其进行交互。它们大多是查询命令，用来获取 ZooKeeper 服务的当前状态及相关信息。用户在客户端可以通过 telnet 或 nc 向 ZooKeeper 提交相应的命令。 ZooKeeper 常用四字命令主要如下： ZooKeeper四字命令功能描述conf3.3.0版本引入的。打印出服务相关配置的详细信息。cons3.3.0

w397090770 9年前 (2016-05-18) 4272℃ 0评论5喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

2016年05月的内容

Hadoop 3.0纠删码(Erasure Coding)：节省一半存储空间

Apache Spark作为编译器：深入介绍新的Tungsten执行引擎

SparkSession：新的切入点

Spark 2.0技术预览版正式发布下载

Apache Kafka 0.10.0.0稳定版发布及其新特性介绍

《Apache Spark 2.0: Faster, Easier, and Smarter》ppt下载

Spark 2.0介绍：从RDD API迁移到DataSet API

Spark 2.0介绍：Dataset介绍和使用

Spark 2.0介绍：SparkSession创建和使用相关API

Zookeeper四字命令