欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:975
  2. 浏览总数:11,908,127
  3. 评论:3928
  4. 分类目录:105 个
  5. 注册用户数:6083
  6. 最后更新:2018年12月9日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
大数据猿:
bigdata_ai

标签:Spark源码解析

Spark

Spark Checkpoint读操作代码分析

Spark Checkpoint读操作代码分析
  《Spark RDD缓存代码分析》  《Spark Task序列化代码分析》  《Spark分区器HashPartitioner和RangePartitioner代码详解》  《Spark Checkpoint读操作代码分析》  《Spark Checkpoint写操作代码分析》  上次介绍了RDD的Checkpint写过程(《Spark Checkpoint写操作代码分析》),本文将介绍RDD如何读取已经Checkpint的数据。在RDD Checkpint

w397090770   3年前 (2015-12-23) 4903℃ 0评论8喜欢

Spark

Spark Checkpoint写操作代码分析

Spark Checkpoint写操作代码分析
  《Spark RDD缓存代码分析》  《Spark Task序列化代码分析》  《Spark分区器HashPartitioner和RangePartitioner代码详解》  《Spark Checkpoint读操作代码分析》  《Spark Checkpoint写操作代码分析》  上次我对Spark RDD缓存的相关代码《Spark RDD缓存代码分析》进行了简要的介绍,本文将对Spark RDD的checkpint相关的代码进行相关的

w397090770   3年前 (2015-11-25) 6954℃ 5评论12喜欢

Spark

Spark RDD缓存代码分析

Spark RDD缓存代码分析
  我们知道,Spark相比Hadoop最大的一个优势就是可以将数据cache到内存,以供后面的计算使用。本文将对这部分的代码进行分析。  我们可以通过rdd.persist()或rdd.cache()来缓存RDD中的数据,cache()其实就是调用persist()实现的。persist()支持下面的几种存储级别:[code lang="scala"]val NONE = new StorageLevel(false, false, false, false)val DISK_ONLY =

w397090770   3年前 (2015-11-17) 7641℃ 0评论14喜欢

Spark

Spark Task序列化代码分析

Spark Task序列化代码分析
  Spark的作业会通过DAGScheduler的处理生产许多的Task并构建成DAG图,而分割出的Task最终是需要经过网络分发到不同的Executor。在分发的时候,Task一般都会依赖一些文件和Jar包,这些依赖的文件和Jar会对增加分发的时间,所以Spark在分发Task的时候会将Task进行序列化,包括对依赖文件和Jar包的序列化。这个是通过spark.closure.serializer参数

w397090770   3年前 (2015-11-16) 5038℃ 0评论8喜欢

Spark

Spark分区器HashPartitioner和RangePartitioner代码详解

Spark分区器HashPartitioner和RangePartitioner代码详解
  在Spark中分区器直接决定了RDD中分区的个数;也决定了RDD中每条数据经过Shuffle过程属于哪个分区;也决定了Reduce的个数。这三点看起来是不同的方面的,但其深层的含义是一致的。  我们需要注意的是,只有Key-Value类型的RDD才有分区的,非Key-Value类型的RDD分区的值是None的。  在Spark中,存在两类分区函数:HashPartitioner

w397090770   3年前 (2015-11-10) 12118℃ 2评论34喜欢