标签：Spark

四种解决Spark数据倾斜（Data Skew）的方法

本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前缀等。为何要处理数据倾斜（Data Skew）什么是数据倾斜对Spark/Hadoop这样的大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。何谓数据倾

w397090770 7年前 (2017-03-07) 13233℃ 2评论27喜欢

Spark

如何优雅地终止正在运行的Spark Streaming程序

　　一直运行的Spark Streaming程序如何关闭呢？是直接使用kill命令强制关闭吗？这种手段是可以达到关闭的目的，但是带来的后果就是可能会导致数据的丢失，因为这时候如果程序正在处理接收到的数据，但是由于接收到kill命令，那它只能停止整个程序，而那些正在处理或者还没有处理的数据可能就会被丢失。那我们咋办？这里有两

w397090770 7年前 (2017-03-01) 8830℃ 1评论11喜欢

HBase

在Spark上通过BulkLoad快速将海量数据导入到Hbase

我们在《通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]》文中介绍了一种快速将海量数据导入Hbase的一种方法，而本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式：第一种使用Put普通的方法来倒数；第二种使用Bulk Load API。关于为啥需要使用Bulk Load本文就不介绍，更多的请参见《通过BulkLoad快

w397090770 7年前 (2017-02-28) 14982℃ 1评论40喜欢

Spark

为Spark 2.x添加ALTER TABLE ADD COLUMNS语法支持

　　Spark SQL从2.0开始已经不再支持ALTER TABLE table_name ADD COLUMNS (col_name data_type [COMMENT col_comment], ...)这种语法了（下文简称add columns语法）。如果你的Spark项目中用到了SparkSQL+Hive这种模式，从Spark1.x升级到2.x很有可能遇到这个问题。为了解决这个问题，我们一般有3种方案可以选择：　　1、启动一个hiveserver2服务，通过jdbc直接调用hive

w397090770 7年前 (2017-02-27) 2906℃ 0评论5喜欢

Spark

Spark Summit East 2017高清视频和PPT下载

　　Spark Summit East 2017会议于2017年2月07日到09日在波士顿进行，本次会议有来自工业界的上百位Speaker；官方日程：https://spark-summit.org/east-2017/schedule/。　　目前本站昨晚已经把里面的85（今天早上发现又上传了25个视频，晚上我补全）个视频全部从Youtube下载下来，已经上传到百度网盘（访问https://github.com/397090770/spark-summit-east-2017获

w397090770 7年前 (2017-02-15) 2769℃ 0评论15喜欢

Spark

精心收集的Spark学习资料(持续更新)

如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop《Learning Spark》O'Reilly，2015-01 电子书下载：进入下载《Advanced Analytics with Spark》 O'Reilly，2015-04 电子书下载：进入下载如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop《High Performance Spark》O'Reilly 2016-03 出

w397090770 7年前 (2017-02-12) 6646℃ 0评论18喜欢

Spark

[电子书]Spark GraphX in Action PDF下载

　　Spark GraphX in Action开头介绍了GraphX库可以干什么，并通过例子介绍了如何以交互的方式使用GraphX 。阅读完本书，您将学习到很多实用的技术，用于增强应用程序和将机器学习算法应用于图形数据中。　　本书包括了以下几个知识点：　　（1）、Understanding graph technology　　（2）、Using the GraphX API　　（3）、Developing algorithms

w397090770 7年前 (2017-02-12) 4681℃ 0评论5喜欢

Spark

[电子书]Apache Spark Graph Processing PDF下载

　　Apache Spark Graph Processing图书由Rindra Ramamonjison所著，全书共148页；Packt Publishing出版社于2015年09月出版。　　通过本书你将学习到以下内容　　（1）、Write, build and deploy Spark applications with the Scala Build Tool.　　（2）、Build and analyze large-scale network datasets　　（3）、Analyze and transform graphs using RDD and graph-specific operations　　（4）

w397090770 7年前 (2017-02-12) 1830℃ 0评论1喜欢

Spark

[电子书]Machine Learning with Spark PDF下载

　　本书介绍了用作各种机器学习模型输入的数据集加载和处理的Spark API的基础知识。书中有详细的示例和现实世界的用例，并探索常见的机器学习模型，包括推荐系统，分类，回归，聚类和降维。最后涵盖了一些高级主题，如使用大规模文本数据以及使用Spark Streaming进行在线机器学习和模型评估的方法。通过本书将学习到以下

w397090770 7年前 (2017-02-12) 2640℃ 0评论4喜欢

Spark

[电子书]Spark Cookbook PDF下载

　　本书重点介绍如何分析大量而且复杂的数据集。本书开头介绍了如何在各种集群管理上安装和配置Apache Spark，其中也会涵盖开发环境的设置。然后介绍了如何通过Spark SQL和实时流对各种数据源进行交互式查询，其中的实时流包括了Twitter Stream 和 Apache Kafka。然后，本书将专注于机器学习，包括监督学习，无监督学习和推荐引擎算

w397090770 7年前 (2017-02-12) 3103℃ 0评论3喜欢

上一页
1
···
13
14
15
16
17
18
19
20
21
22
23
...
44
下一页
共 44 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

标签：Spark

四种解决Spark数据倾斜（Data Skew）的方法

如何优雅地终止正在运行的Spark Streaming程序

在Spark上通过BulkLoad快速将海量数据导入到Hbase

为Spark 2.x添加ALTER TABLE ADD COLUMNS语法支持

Spark Summit East 2017高清视频和PPT下载

精心收集的Spark学习资料(持续更新)

[电子书]Spark GraphX in Action PDF下载

[电子书]Apache Spark Graph Processing PDF下载

[电子书]Machine Learning with Spark PDF下载

[电子书]Spark Cookbook PDF下载