欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:960
  2. 浏览总数:11,448,842
  3. 评论:3870
  4. 分类目录:102 个
  5. 注册用户数:5828
  6. 最后更新:2018年10月13日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
大数据猿:
bigdata_ai

Spark函数讲解:checkpoint

  为当前RDD设置检查点。该函数将会创建一个二进制的文件,并存储到checkpoint目录中,该目录是用SparkContext.setCheckpointDir()设置的。在checkpoint的过程中,该RDD的所有依赖于父RDD中的信息将全部被移出。对RDD进行checkpoint操作并不会马上被执行,必须执行Action操作才能触发。

函数原型

def checkpoint()

实例

/**
 * User: 过往记忆
 * Date: 15-03-08
 * Time: 上午06:30
 * bolg: https://www.iteblog.com
 * 本文地址:https://www.iteblog.com/archives/1278
 * 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量的干货
 * 过往记忆博客微信公共帐号:iteblog_hadoop
 */
scala> val data = sc.parallelize(1 to 100000 , 15)
data: org.apache.spark.rdd.RDD[Int] =
  ParallelCollectionRDD[12] at parallelize at <console>:12

scala> sc.setCheckpointDir("/iteblog")

scala> data.checkpoint

scala> data.count
15/02/15 11:47:47 INFO RDDCheckpointData: Done checkpointing RDD 12 to 
hdfs://iteblogcluster/iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12, 
new parent is RDD 13
res17: Long = 100000

[iteblog.com@ ~]$ bin/hadoop fs -ls /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12
Found 15 items
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00000
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00001
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00002
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00003
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00004
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00005
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00006
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00007
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00008
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00009
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00010
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00011
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00012
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00013
-rw-r--r-- ... 2015-02-15 /iteblog/5f2053e9-a02f-4661-ad1d-2250a8473e92/rdd-12/part-00014

  执行完count之后,会在/iteblog目录下产生出多个(数量和你分区个数有关)二进制的文件。

本博客文章除特别声明,全部都是原创!
转载本文请加上:转载自过往记忆(https://www.iteblog.com/)
本文链接: 【Spark函数讲解:checkpoint】(https://www.iteblog.com/archives/1278.html)
喜欢 (6)
分享 (0)
发表我的评论
取消评论

表情
本博客评论系统带有自动识别垃圾评论功能,请写一些有意义的评论,谢谢!