欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

Spark函数讲解:checkpoint

  为当前RDD设置检查点。该函数将会创建一个二进制的文件,并存储到checkpoint目录中,该目录是用SparkContext.setCheckpointDir()设置的。在checkpoint的过程中,该RDD的所有依赖于父RDD中的信息将全部被移出。对RDD进行checkpoint操作并不会马上被执行,必须执行Action操作才能触发。

函数原型

def checkpoint()

实例

/**
 * User: 过往记忆
 * Date: 15-03-08
 * Time: 上午06:30
 * bolg: 
 * 本文地址:/archives/1278
 * 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量的干货
 * 过往记忆博客微信公共帐号:iteblog_hadoop
 */
scala> val data = sc.parallelize(1 to 100000 , 15)
data: org.apache.spark.rdd.RDD[Int] =
  ParallelCollectionRDD[12] at parallelize at <console>:12

scala> sc.setCheckpointDir("/iteblog")

scala> data.checkpoint

scala> data.count
15/02/15 11:47:47 INFO RDDCheckpointData: Done checkpointing RDD 12 to 
hdfs://iteblogcluster/iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12, 
new parent is RDD 13
res17: Long = 100000

[iteblog.com@ ~]$ bin/hadoop fs -ls /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12
Found 15 items
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00000
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00001
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00002
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00003
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00004
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00005
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00006
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00007
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00008
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00009
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00010
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00011
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00012
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00013
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00014

  执行完count之后,会在/iteblog目录下产生出多个(数量和你分区个数有关)二进制的文件。

本博客文章除特别声明,全部都是原创!
原创文章版权归过往记忆大数据(过往记忆)所有,未经许可不得转载。
本文链接: 【Spark函数讲解:checkpoint】(https://www.iteblog.com/archives/1278.html)
喜欢 (7)
分享 (0)
发表我的评论
取消评论

表情
本博客评论系统带有自动识别垃圾评论功能,请写一些有意义的评论,谢谢!