Spark函数讲解：collect

文章目录

1 函数原型
2 实例
3 注意

　　将RDD转成Scala数组，并返回。

函数原型

def collect(): Array[T]
def collect[U: ClassTag](f: PartialFunction[T, U]): RDD[U]

　　collect函数的定义有两种，我们最常用的是第一个。第二个函数需要我们提供一个标准的偏函数，然后保存符合的元素到MappedRDD中。

实例

/**
 * User: 过往记忆
 * Date: 15-03-11
 * Time: 下午08:24
 * bolg: 
 * 本文地址：/archives/1282
 * 过往记忆博客，专注于hadoop、hive、spark、shark、flume的技术博客，大量的干货
 * 过往记忆博客微信公共帐号：iteblog_hadoop
 */
scala> val one: PartialFunction[Int, String] = { case 1 => "one"; case _ => "other"}
one: PartialFunction[Int,String] = <function1>

scala> val data = sc.parallelize(List(2,3,1))
data: org.apache.spark.rdd.RDD[Int] = 
　　　　ParallelCollectionRDD[11] at parallelize at <console>:12

scala> data.collect(one).collect
res4: Array[String] = Array(other, other, one)