欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:988
  2. 浏览总数:12,219,209
  3. 评论:3982
  4. 分类目录:106 个
  5. 注册用户数:6259
  6. 最后更新:2019年1月14日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
大数据猿:
bigdata_ai

 分类:Spark

[电子书]High Performance Spark完整版PDF下载

[电子书]High Performance Spark完整版PDF下载
如果你使用Apache Spark解决了中等规模数据的问题,但是在海量数据使用Spark的时候还是会遇到各种问题。High Performance Spark将会向你展示如何使用Spark的高级功能,所以你可以超越新手级别。本书适合软件工程师、数据工程师、开发者以及Spark系统管理员的使用。本书全名High Performance Spark:Best Practices for Scaling and Optimizing Apache Spark,作

w397090770   2年前 (2017-06-23) 6324℃ 0评论15喜欢

[电子书]Spark: The Definitive Guide Early Release PDF下载

[电子书]Spark: The Definitive Guide Early Release PDF下载
本书作者:Bill Chambers、Matei Zaharia、Shrey Mehrotra,由O'Reilly Media出版社于2017年1月出版,全书共450页。这里提供的是本书的 Early Release 版本,正式版尚未出版,而且目前还没有完整的内容。由于这本书有Matei Zaharia参与编写,所有很值得一看。通过本书将学习到以下的知识:Get a gentle overview of big data and SparkLearn about DataFrames, SQL, a

zz~~   2年前 (2017-06-22) 4686℃ 0评论22喜欢

Spark Summit 2017 SanFrancisco全部PPT下载[共143个]

Spark Summit 2017 SanFrancisco全部PPT下载[共143个]
Spark Summit 2017会议于2017年06月05日至07日在旧金山(San Francisco)进行,全部会议一共179个。从会议我们得到目前的Spark发展方向主要包括两大主题:深度学习(Deep Learning)提升流系统的性能( Streaming Performance)如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop2016年是深度学习之年,而

w397090770   2年前 (2017-06-18) 1600℃ 0评论4喜欢

[电子书]Machine Learning with Spark Second Edition PDF下载

[电子书]Machine Learning with Spark Second Edition PDF下载
本书作者:Rajdeep Dua、Manpreet Singh Ghotra、 Nick Pentreath,由Packt出版社于2017年04月出版,全书共532页。本书是2015年02月出版的Machine Learning with Spark的第二版。通过本书将学习到以下的知识:Get hands-on with the latest version of Spark MLCreate your first Spark program with Scala and PythonSet up and configure a development environment for Spark on your own computer, as well

zz~~   2年前 (2017-05-27) 3016℃ 0评论12喜欢

Spark sql解析异常java.lang.StackOverflowError处理

Spark sql解析异常java.lang.StackOverflowError处理
如果你在Spark SQL中运行的SQL语句过长的话,会出现 java.lang.StackOverflowError 异常:[code lang="java"]java.lang.StackOverflowError at org.apache.spark.sql.hive.HiveQl$$anonfun$22.apply(HiveQl.scala:924) at org.apache.spark.sql.hive.HiveQl$$anonfun$22.apply(HiveQl.scala:924) at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244) at scala.collection.TraversableLike$$anonfun

w397090770   2年前 (2017-05-17) 2692℃ 0评论4喜欢

解决Spark shell模式下初始化Job出现的异常

解决Spark shell模式下初始化Job出现的异常
Spark 的 shell 作为一个强大的交互式数据分析工具,提供了一个简单的方式来学习 API。它可以使用 Scala(在 Java 虚拟机上运行现有的 Java 库的一个很好方式) 或 Python。我们很可能会在Spark Shell模式下运行下面的测试代码:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop[code lang="scala"]scala> imp

w397090770   2年前 (2017-04-26) 1586℃ 0评论9喜欢

[电子书]Mastering Spark for Data Science PDF下载

[电子书]Mastering Spark for Data Science PDF下载
  本书由Andrew Morgan所著,全书共560页;Packt Publishing出版社于2017年03月出版。通过本书你将学习到以下的知识:  1、Learn the design patterns that integrate Spark into industrialized data science pipelines  2、See how commercial data scientists design scalable code and reusable code for data science services  3、Explore cutting edge data science methods so that you can study tre

zz~~   2年前 (2017-04-17) 2600℃ 2评论8喜欢

Apache Spark常见的三大误解

Apache Spark常见的三大误解
最近几年关于Apache Spark框架的声音是越来越多,而且慢慢地成为大数据领域的主流系统。最近几年Apache Spark和Apache Hadoop的Google趋势可以证明这一点:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop上图已经明显展示出最近五年,Apache Spark越来越受开发者们的欢迎,大家通过Google搜索更多关

w397090770   2年前 (2017-04-12) 4797℃ 0评论43喜欢

Apache Hivemall:可运行在Hive, Spark 和 Pig 上的可扩展机器学习库

Apache Hivemall:可运行在Hive, Spark 和 Pig 上的可扩展机器学习库
  Apache Hivemall是机器学习算法(machine learning algorithms)和多功能数据分析函数(versatile data analytics functions)的集合,它通过Apache Hive UDF / UDAF / UDTF接口提供了一些易于使用的机器学习算法。Hivemall 最初由Treasure Data 开发的,并于2016年9月捐献给 Apache 软件基金会,进入了Apache 孵化器。  Apache Hivemall提供了各种功能包括:回归(

w397090770   2年前 (2017-03-29) 2115℃ 1评论9喜欢

object not serializable (class: org.apache.hadoop.hbase.io.ImmutableBytesWritable)

object not serializable (class: org.apache.hadoop.hbase.io.ImmutableBytesWritable)
在使用Spark操作Hbase的时候,其返回的数据类型是RDD[ImmutableBytesWritable,Result],我们可能会对这个结果进行其他的操作,比如join等,但是因为org.apache.hadoop.hbase.io.ImmutableBytesWritable 和 org.apache.hadoop.hbase.client.Result 并没有实现 java.io.Serializable 接口,程序在运行的过程中可能发生以下的异常:[code lang="bash"]Serialization stack: - object not ser

w397090770   2年前 (2017-03-23) 2317℃ 0评论11喜欢