分类：Spark

Hadoop&Spark解决二次排序问题(Spark篇)

我在《Hadoop&Spark解决二次排序问题(Hadoop篇)》文章中介绍了如何在Hadoop中实现二次排序问题，今天我将介绍如何在Spark中实现。问题描述二次排序就是key之间有序，而且每个Key对应的value也是有序的；也就是对MapReduce的输出(KEY, Value(v1,v2,v3,......,vn))中的Value(v1,v2,v3,......,vn)值进行排序（升序或者降序），使得Value(s1,s2,s3,......,sn)，si

w397090770 8年前 (2016-10-08) 6131℃ 0评论12喜欢

Apache Spark 2.0.1稳定版正式发布

今天凌晨（2016-10-05）Apache Spark 2.0.1稳定版正式发布。Apache Spark 2.0.1是一个维护版本，一共处理了300个Issues，推荐所有使用Spark 2.0.0的用户升级到此版本。Apache Spark 2.0为我们带来了许多新的功能： DataFrame和Dataset统一（可以参见《Spark 2.0技术预览：更容易、更快速、更智能》）：https://www.iteblog.com/archives/1668.html SparkSession：一个

w397090770 8年前 (2016-10-05) 3144℃ 0评论7喜欢

为什么Spark Streaming + Kafka很难保证exactly once？

Streaming job 的调度与执行　　我们先来看看如下 job 调度执行流程图：如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop为什么很难保证 exactly once　　上面这张流程图最主要想说明的就是，job 的提交执行是异步的，与 checkpoint 操作并不是原子操作。这样的机制会引起数据重复消费问题：

zz~~ 8年前 (2016-09-08) 8750℃ 5评论12喜欢

使用Spark处理存储于Hive中的Twitter数据的一些技巧

本文将介绍使用Spark batch作业处理存储于Hive中Twitter数据的一些实用技巧。首先我们需要引入一些依赖包，参考如下：[code lang="scala"]name := "Sentiment"version := "1.0"scalaVersion := "2.10.6"assemblyJarName in assembly := "sentiment.jar"libraryDependencies += "org.apache.spark" % "spark-core_2.10" % "1.6.0&qu

zz~~ 8年前 (2016-08-31) 3325℃ 0评论5喜欢