分类：Spark

Spark Checkpoint写操作代码分析

　　《Spark RDD缓存代码分析》　　《Spark Task序列化代码分析》　　《Spark分区器HashPartitioner和RangePartitioner代码详解》　　《Spark Checkpoint读操作代码分析》　　《Spark Checkpoint写操作代码分析》　　上次我对Spark RDD缓存的相关代码《Spark RDD缓存代码分析》进行了简要的介绍，本文将对Spark RDD的checkpint相关的代码进行相关的

w397090770 9年前 (2015-11-25) 8803℃ 5评论14喜欢

Spark RDD缓存代码分析

　　我们知道，Spark相比Hadoop最大的一个优势就是可以将数据cache到内存，以供后面的计算使用。本文将对这部分的代码进行分析。　　我们可以通过rdd.persist()或rdd.cache()来缓存RDD中的数据，cache()其实就是调用persist()实现的。persist()支持下面的几种存储级别：[code lang="scala"]val NONE = new StorageLevel(false, false, false, false)val DISK_ONLY =

w397090770 9年前 (2015-11-17) 9588℃ 0评论15喜欢

Spark Task序列化代码分析

　　Spark的作业会通过DAGScheduler的处理生产许多的Task并构建成DAG图，而分割出的Task最终是需要经过网络分发到不同的Executor。在分发的时候，Task一般都会依赖一些文件和Jar包，这些依赖的文件和Jar会对增加分发的时间，所以Spark在分发Task的时候会将Task进行序列化，包括对依赖文件和Jar包的序列化。这个是通过spark.closure.serializer参数

w397090770 9年前 (2015-11-16) 6183℃ 0评论8喜欢

Spark社区可能放弃Spark 1.7而直接发布Spark 2.x

　　最近由Reynold Xin给Spark开发者发布的一封邮件透露，Spark社区很有可能会跳过Spark 1.7版本的发布，而直接转向Spark 2.x。　　如果Spark 2.x发布，那么它将：　　（1）、Spark编译将默认使用Scala 2.11，但是还是会支持Scala 2.10。　　（2）、移除对Hadoop 1.x的支持。不过也有可能移除对Hadoop 2.2以下版本的支持，因为Hadoop 2.0和2.1版本分

w397090770 9年前 (2015-11-13) 6961℃ 0评论16喜欢

Spark分区器HashPartitioner和RangePartitioner代码详解

　　在Spark中分区器直接决定了RDD中分区的个数；也决定了RDD中每条数据经过Shuffle过程属于哪个分区；也决定了Reduce的个数。这三点看起来是不同的方面的，但其深层的含义是一致的。　　我们需要注意的是，只有Key-Value类型的RDD才有分区的，非Key-Value类型的RDD分区的值是None的。　　在Spark中，存在两类分区函数：HashPartitioner

w397090770 9年前 (2015-11-10) 18334℃ 2评论40喜欢

怎么在Idea IDE里面打开Spark源码而不报错

　　我们在学习或者使用Spark的时候都会选择下载Spark的源码包来加强Spark的学习。但是在导入Spark代码的时候，我们会发现yarn模块的相关代码总是有相关类依赖找不到的错误（如下图），而且搜索（快捷键Ctrl+N）里面的类时会搜索不到！这给我们带来了很多不遍。。　　本文就是来解决这个问题的。我使用的是Idea IDE工具阅读代

w397090770 9年前 (2015-11-07) 8953℃ 4评论11喜欢

脱离JVM？ Hadoop生态圈的挣扎与演化

　　新世纪以来，互联网及个人终端的普及，传统行业的信息化及物联网的发展等产业变化产生了大量的数据，远远超出了单台机器能够处理的范围，分布式存储与处理成为唯一的选项。从2005年开始，Hadoop从最初Nutch项目的一部分，逐步发展成为目前最流行的大数据处理平台。Hadoop生态圈的各个项目，围绕着大数据的存储，计算，

w397090770 9年前 (2015-11-06) 7954℃ 0评论9喜欢

通过spark-redshift工具包读取Redshift上的表

　　Spark Data Source API是从Spark 1.2开始提供的，它提供了可插拔的机制来和各种结构化数据进行整合。Spark用户可以从多种数据源读取数据，比如Hive table、JSON文件、Parquet文件等等。我们也可以到http://spark-packages.org/（这个网站貌似现在不可以访问了）网站查看Spark支持的第三方数据源工具包。本文将介绍新的Spark数据源包，通过它我们

w397090770 9年前 (2015-10-21) 3772℃ 0评论4喜欢

Spark中parallelize函数和makeRDD函数的区别

　　我们知道，在Spark中创建RDD的创建方式大概可以分为三种：（1）、从集合中创建RDD；（2）、从外部存储创建RDD；（3）、从其他RDD创建。　　而从集合中创建RDD，Spark主要提供了两中函数：parallelize和makeRDD。我们可以先看看这两个函数的声明：[code lang="scala"]def parallelize[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParalle

w397090770 9年前 (2015-10-09) 48209℃ 0评论60喜欢

Apache Spark 1.5新特性介绍

　　Apache Spark社区刚刚发布了1.5版本，大家一定想知道这个版本的主要变化，这篇文章告诉你答案。DataFrame执行后端优化（Tungsten第一阶段）　　DataFrame可以说是整个Spark项目最核心的部分，在1.5这个开发周期内最大的变化就是Tungsten项目的第一阶段已经完成。主要的变化是由Spark自己来管理内存而不是使用JVM，这样可以避免JVM

w397090770 9年前 (2015-09-09) 4772℃ 0评论14喜欢

上一页
1
···
23
24
25
26
27
28
29
30
31
32
33
...
46
下一页
共 46 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据