分类：Spark

Spark Streaming作业提交源码分析接收数据篇

　　《Spark Streaming作业提交源码分析接收数据篇》、《Spark Streaming作业提交源码分析数据处理篇》　　最近一段时间在使用Spark Streaming，里面遇到很多问题，只知道参照官方文档写，不理解其中的原理，于是抽了一点时间研究了一下Spark Streaming作业提交的全过程，包括从外部数据源接收数据，分块，拆分Job，提交作业全过程。

w397090770 10年前 (2015-04-28) 9223℃ 2评论9喜欢

OpenCloud 2015大会PPT资料免费下载[Spark篇]

　　由CSDN主办OpenCloud 2015大会于4月16日-18日在国家会议中心成功举办。“2015 OpenStack技术大会”、“2015 Spark技术峰会”、“2015 Container技术峰会”三大峰会及三场深度行业实战培训赢得了讲师和听众们高度认可，40余位一线专家的深度主题演讲赢得阵阵掌声。　　2015 spark技术峰会.pushed{color:#f60;}时间议题演讲者09:

w397090770 10年前 (2015-04-28) 7611℃ 0评论2喜欢

Spark Streaming性能调优详解

　　Spark Streaming提供了高效便捷的流式处理模式，但是在有些场景下，使用默认的配置达不到最优，甚至无法实时处理来自外部的数据，这时候我们就需要对默认的配置进行相关的修改。由于现实中场景和数据量不一样，所以我们无法设置一些通用的配置（要不然Spark Streaming开发者就不会弄那么多参数，直接写死不得了），我们需

w397090770 10年前 (2015-04-27) 27097℃ 0评论34喜欢

在Spark中自定义Kryo序列化输入输出API

　　在Spark中内置支持两种系列化格式：（1）、Java serialization；（2）、Kryo serialization。在默认情况下，Spark使用的是Java的ObjectOutputStream系列化框架，它支持所有继承java.io.Serializable的类系列化，虽然Java系列化非常灵活，但是它的性能不佳。然而我们可以使用Kryo 库来系列化，它相比Java serialization系列化高效，速度很快（通常比Java快1

w397090770 10年前 (2015-04-23) 14873℃ 0评论15喜欢

使用Spark和MemSQL Spark连接器运行实时应用

　　Apache Spark是目前非常强大的分布式计算框架。其简单易懂的计算框架使得我们很容易理解。虽然Spark是在操作大数据集上很有优势，但是它仍然需要将数据持久化存储，HDFS是最通用的选择，和Spark结合使用，因为它基于磁盘的特点，导致在实时应用程序中会影响性能（比如在Spark Streaming计算中）。而且Spark内置就不支持事务提交(

w397090770 10年前 (2015-04-22) 10241℃ 0评论8喜欢

Spark Streaming和Kafka整合开发指南(二)

　　《Spark Streaming和Kafka整合开发指南(一)》　　《Spark Streaming和Kafka整合开发指南(二)》　　在本博客的《Spark Streaming和Kafka整合开发指南(一)》文章中介绍了如何使用基于Receiver的方法使用Spark Streaming从Kafka中接收数据。本文将介绍如何使用Spark 1.3.0引入的Direct API从Kafka中读数据。　　和基于Receiver接收数据不一样，这种方式

w397090770 10年前 (2015-04-21) 28468℃ 1评论26喜欢

Spark Streaming和Kafka整合开发指南(一)

　　《Spark Streaming和Kafka整合开发指南(一)》　　《Spark Streaming和Kafka整合开发指南(二)》　　Apache Kafka是一个分布式的消息发布-订阅系统。可以说，任何实时大数据处理工具缺少与Kafka整合都是不完整的。本文将介绍如何使用Spark Streaming从Kafka中接收数据，这里将会介绍两种方法：（1）、使用Receivers和Kafka高层次的API；（2）

w397090770 10年前 (2015-04-19) 33787℃ 0评论33喜欢

Spark 1.2.2和Spark 1.3.1同时发布(都是稳定版)

　　Spark 1.2.2和Spark 1.3.1于美国时间2015年4月17日同时发布。两个都是维护版本，并推荐所有1.3和1.2的Spark使用用户升级到相应的版本。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoopspark 1.2.2（稳定版本）　　spark 1.2.2主要是维护版本，修复了许多Bug，是基于Spark 1.2的分支。并推荐所有使用1.

w397090770 10年前 (2015-04-18) 5219℃ 0评论3喜欢

Spark 2.0：将支持在手机设备上运行Spark

　　据估计，到2017年底，90%的CPU cycles 将会致力于移动硬件，移动计算正在迅速上升到主导地位。Spark为此重新设计了Spark体系结构，允许Spark在移动设备上运行Spark。　　Spark为现代化数据中心和大数据应用进行设计和优化，但是它目前不适合移动计算。在过去的几个月中，Spark社区正在调研第一个可以在移动设备上运行架构的可

w397090770 10年前 (2015-04-14) 8097℃ 0评论10喜欢

Spark 1.4最大的看点：支持R语言(SparkR)

　　R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个广泛应用于统计计算和统计制图的优秀编程语言，但是其交互式使用通常局限于一台机器。为了能够使用R语言分析大规模分布式的数据，UC Berkeley给我们带来了SparkR，SparkR就是用R语言编写Spark程序，它允许数据科学家分析

w397090770 10年前 (2015-04-14) 13031℃ 0评论17喜欢

上一页
1
···
30
31
32
33
34
35
36
37
38
39
40
...
46
下一页
共 46 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据