欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

有关【Hadoop】的内容

Mysql

Spark RDD写入RMDB(Mysql)方法二

Spark RDD写入RMDB(Mysql)方法二
  在本博客的《Spark将计算结果写入到Mysql中》文章介绍了如果将Spark计算后的RDD最终 写入到Mysql等关系型数据库中,但是这些写操作都是自己实现的,弄起来有点麻烦。不过值得高兴的是,前几天发布的Spark 1.3.0已经内置了读写关系型数据库的方法,我们可以直接在代码里......

w397090770   10年前 (2015-03-17) 13620℃ 6评论16喜欢

Spark

Spark函数讲解:collectAsMap

Spark函数讲解:collectAsMap
  功能和collect函数类似。该函数用于Pair RDD,最终返回Map类型的结果。官方文档说明:Return the key-value pairs in this RDD to the master as a Map.Warning: this doesn't return a multimap (so if you have multiple values to the same key, only one value pe......

w397090770   10年前 (2015-03-16) 16638℃ 0评论18喜欢

Spark

Storm和Spark Streaming框架对比

Storm和Spark Streaming框架对比
  Storm和Spark Streaming两个都是分布式流处理的开源框架。但是这两者之间的区别还是很大的,正如你将要在下文看到的。处理模型以及延迟  虽然两框架都提供了可扩展性(scalability)和可容错性(fault tolerance),但是它们的处理模型从根本上说是不一样的。Storm可以......

w397090770   11年前 (2015-03-12) 16782℃ 1评论6喜欢

Spark

Spark函数讲解:collect

Spark函数讲解:collect
  将RDD转成Scala数组,并返回。函数原型def collect(): Array[T]def collect[U: ClassTag](f: PartialFunction[T, U]): RDD[U]  collect函数的定义有两种,我们最常用的是第一个。第二个函数需要我们提供一个标准的偏函数,然后保存符合的元素到MappedRDD中。......

w397090770   11年前 (2015-03-11) 29941℃ 0评论22喜欢

Spark

Spark多文件输出(MultipleOutputFormat)

Spark多文件输出(MultipleOutputFormat)
  在本博客的《Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)》《Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)》两篇文章中我介绍了如何在Hadoop中根据Key或者Value的不同将属于不同的类型记录写到不同的文件中。在里面用到了Mu......

w397090770   11年前 (2015-03-11) 21106℃ 19评论17喜欢

Spark

Spark函数讲解:cogroup

Spark函数讲解:cogroup
  将多个RDD中同一个Key对应的Value组合到一起。函数原型def cogroup[W1, W2, W3](other1: RDD[(K, W1)], other2: RDD[(K, W2)], other3: RDD[(K, W3)], partitioner: Partitioner) : RDD[(K, (Iterable[V], Iterable[W1], Iterable[W2], Iterable[W3......

w397090770   11年前 (2015-03-10) 17602℃ 0评论17喜欢

Mysql

Spark将计算结果写入到Mysql中

Spark将计算结果写入到Mysql中
  建议用Spark 1.3.0提供的写关系型数据库的方法,参见《Spark RDD写入RMDB(Mysql)方法二》。  在《Spark与Mysql(JdbcRDD)整合开发》文章中我们介绍了如何通过Spark读取Mysql中的数据,当时写那篇文章的时候,Spark还未提供通过Java来使用JdbcRDD的API,不过目前的Sp......

w397090770   11年前 (2015-03-10) 37028℃ 5评论33喜欢

Spark

Spark函数讲解:coalesce

Spark函数讲解:coalesce
  对RDD中的分区重新进行合并。函数原型def coalesce(numPartitions: Int, shuffle: Boolean = false)    (implicit ord: Ordering[T] = null): RDD[T]  返回一个新的RDD,且该RDD的分区个数等于numPartitions个数。如果shuffle设置为true,则会进行shuffl......

w397090770   11年前 (2015-03-09) 14318℃ 1评论5喜欢

Spark

Spark函数讲解序列文章

Spark函数讲解序列文章
  本博客近日将对Spark 1.2.1 RDD中所有的函数进行讲解,主要包括函数的解释,实例以及注意事项,每日一篇请关注。以下是将要介绍的函数,按照字母的先后顺序进行介绍,可以点的说明已经发布了。  aggregate、aggregateByKey、cache、cartesian、checkpoint、coalesce......

w397090770   11年前 (2015-03-08) 7311℃ 0评论6喜欢

Spark

Spark函数讲解:checkpoint

Spark函数讲解:checkpoint
  为当前RDD设置检查点。该函数将会创建一个二进制的文件,并存储到checkpoint目录中,该目录是用SparkContext.setCheckpointDir()设置的。在checkpoint的过程中,该RDD的所有依赖于父RDD中的信息将全部被移出。对RDD进行checkpoint操作并不会马上被执行,必须执行Action......

w397090770   11年前 (2015-03-08) 60596℃ 0评论7喜欢