欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:988
  2. 浏览总数:12,219,164
  3. 评论:3982
  4. 分类目录:106 个
  5. 注册用户数:6259
  6. 最后更新:2019年1月14日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
大数据猿:
bigdata_ai

标签:Spark

Spark

上海(Shanghai) Apache Spark Meetup第十二次聚会

上海(Shanghai) Apache Spark Meetup第十二次聚会
第十二次Shanghai Apache Spark Meetup聚会,由Splunk中国大力支持。活动将于2017年03月18日12:30~16:45在上海淞沪路303号901 (大学路智星路路口汇丰银行楼9楼)Splunk 中国进行。 举办地点交通方便,靠近地铁10号线江湾体育场站,座位有限(大约120),先到先得,速速行动啊。大会主题《利用Spark开发高并发,高可靠的分布式大数据采集调

w397090770   2年前 (2017-03-09) 727℃ 0评论2喜欢

Spark

四种解决Spark数据倾斜(Data Skew)的方法

四种解决Spark数据倾斜(Data Skew)的方法
本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。为何要处理数据倾斜(Data Skew)什么是数据倾斜对Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。何谓数据倾

w397090770   2年前 (2017-03-07) 7236℃ 1评论19喜欢

Spark

如何优雅地终止正在运行的Spark Streaming程序

如何优雅地终止正在运行的Spark Streaming程序
  一直运行的Spark Streaming程序如何关闭呢?是直接使用kill命令强制关闭吗?这种手段是可以达到关闭的目的,但是带来的后果就是可能会导致数据的丢失,因为这时候如果程序正在处理接收到的数据,但是由于接收到kill命令,那它只能停止整个程序,而那些正在处理或者还没有处理的数据可能就会被丢失。那我们咋办?这里有两

w397090770   2年前 (2017-03-01) 4663℃ 0评论9喜欢

HBase

在Spark上通过BulkLoad快速将海量数据导入到Hbase

在Spark上通过BulkLoad快速将海量数据导入到Hbase
我们在《通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]》文中介绍了一种快速将海量数据导入Hbase的一种方法,而本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式:第一种使用Put普通的方法来倒数;第二种使用Bulk Load API。关于为啥需要使用Bulk Load本文就不介绍,更多的请参见《通过BulkLoad快

w397090770   2年前 (2017-02-28) 8551℃ 1评论30喜欢

Spark

为Spark 2.x添加ALTER TABLE ADD COLUMNS语法支持

为Spark 2.x添加ALTER TABLE ADD COLUMNS语法支持
  Spark SQL从2.0开始已经不再支持ALTER TABLE table_name ADD COLUMNS (col_name data_type [COMMENT col_comment], ...)这种语法了(下文简称add columns语法)。如果你的Spark项目中用到了SparkSQL+Hive这种模式,从Spark1.x升级到2.x很有可能遇到这个问题。为了解决这个问题,我们一般有3种方案可以选择:  1、启动一个hiveserver2服务,通过jdbc直接调用hive

w397090770   2年前 (2017-02-27) 967℃ 0评论4喜欢

Spark

Spark Summit East 2017高清视频和PPT下载

Spark Summit East 2017高清视频和PPT下载
  Spark Summit East 2017会议于2017年2月07日到09日在波士顿进行,本次会议有来自工业界的上百位Speaker;官方日程:https://spark-summit.org/east-2017/schedule/。  目前本站昨晚已经把里面的85(今天早上发现又上传了25个视频,晚上我补全)个视频全部从Youtube下载下来,已经上传到百度网盘(访问https://github.com/397090770/spark-summit-east-2017获

w397090770   2年前 (2017-02-15) 2341℃ 0评论14喜欢

Spark

精心收集的Spark学习资料(持续更新)

精心收集的Spark学习资料(持续更新)
如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop《Learning Spark》O'Reilly,2015-01 电子书下载:进入下载《Advanced Analytics with Spark》 O'Reilly,2015-04 电子书下载:进入下载如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop《High Performance Spark》O'Reilly 2016-03 出

w397090770   2年前 (2017-02-12) 4744℃ 0评论17喜欢

Spark

[电子书]Spark GraphX in Action PDF下载

[电子书]Spark GraphX in Action PDF下载
  Spark GraphX in Action开头介绍了GraphX库可以干什么,并通过例子介绍了如何以交互的方式使用GraphX 。阅读完本书,您将学习到很多实用的技术,用于增强应用程序和将机器学习算法应用于图形数据中。  本书包括了以下几个知识点:  (1)、Understanding graph technology  (2)、Using the GraphX API  (3)、Developing algorithms

w397090770   2年前 (2017-02-12) 3197℃ 0评论4喜欢

Spark

[电子书]Apache Spark Graph Processing PDF下载

[电子书]Apache Spark Graph Processing PDF下载
  Apache Spark Graph Processing图书由Rindra Ramamonjison所著,全书共148页;Packt Publishing出版社于2015年09月出版。  通过本书你将学习到以下内容  (1)、Write, build and deploy Spark applications with the Scala Build Tool.  (2)、Build and analyze large-scale network datasets  (3)、Analyze and transform graphs using RDD and graph-specific operations  (4)

w397090770   2年前 (2017-02-12) 967℃ 0评论1喜欢

Spark

[电子书]Machine Learning with Spark PDF下载

[电子书]Machine Learning with Spark PDF下载
  本书介绍了用作各种机器学习模型输入的数据集加载和处理的Spark API的基础知识。书中有详细的示例和现实世界的用例,并探索常见的机器学习模型,包括推荐系统,分类,回归,聚类和降维。最后涵盖了一些高级主题,如使用大规模文本数据以及使用Spark Streaming进行在线机器学习和模型评估的方法。通过本书将学习到以下

w397090770   2年前 (2017-02-12) 1806℃ 0评论4喜欢