欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

 分类:Spark

Apache Spark 2.2.0新特性详细介绍

Apache Spark 2.2.0新特性详细介绍
Apache Spark 2.2.0 经过了大半年的紧张开发,从RC1到RC6终于在今天正式发布了。由于时间的缘故,我并没有在《Apache Spark 2.2.0正式发布》文章中过多地介绍 Apache Spark 2.2.0 的新特性,本文作为补充将详细介绍Apache Spark 2.2.0 的新特性。这个版本是 Structured Streaming 的一个重要里程碑,因为其终于可以正式在生产环境中使用,实验标签(ex

w397090770   7年前 (2017-07-12) 9281℃ 0评论28喜欢

Apache Spark 2.2.0正式发布

Apache Spark 2.2.0正式发布
关于 Apache Spark 2.2.0 的详细新功能介绍请参见:《Apache Spark 2.2.0新特性详细介绍》Apache Spark 2.2.0 持续了半年的开发,从RC1 到 RC6 终于在今天正式发布了。本版本是 2.x 版本线的第三个版本。在这个版本 Structured Streaming 的实验性标记(experimental tag)已经被移除,这也意味着后面的 2.2.x 之后就可以放心在线上使用了。除此之外,这

w397090770   7年前 (2017-07-12) 2758℃ 0评论8喜欢

Spark SQL中Join常用的几种实现

Spark SQL中Join常用的几种实现
引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于Join,常见的3种实现。Spark SQL中Join常用的实现Broadc

zz~~   7年前 (2017-07-09) 8284℃ 0评论16喜欢

[电子书]Apache Spark 2.x Cookbook, 2nd Edition PDF下载

[电子书]Apache Spark 2.x Cookbook, 2nd Edition PDF下载
本书于2017-05由Packt Publishing出版,作者Rishi Yadav,全书294页。从书名就可以看出这是一本讲解技巧的书。本书副标题:Over 70 recipes to help you use Apache Spark as your single big data computing platform and master its libraries。本书适合数据工程师,数据科学家以及那些想使用Spark的读者。阅读本书之前最好有Scala的编程基础。通过本书你将学到以下知识

zz~~   7年前 (2017-07-07) 4816℃ 0评论16喜欢

如何在Spark、MapReduce和Flink程序里面指定JAVA_HOME

如何在Spark、MapReduce和Flink程序里面指定JAVA_HOME
大家在使用Spark、MapReduce 或 Flink 的时候很可能遇到这样一种情况:Hadoop 集群使用的 JDK 版本为1.7.x,而我们自己编写的程序由于某些原因必须使用 1.7 以上版本的JDK,这时候如果我们直接使用 JDK 1.8、或 1.9 来编译我们写好的代码,然后直接提交到 YARN 上运行,这时候会遇到以下的异常:[code lang="java"]Exception in thread "main" jav

w397090770   7年前 (2017-07-04) 5300℃ 1评论16喜欢

[电子书]High Performance Spark完整版PDF下载

[电子书]High Performance Spark完整版PDF下载
如果你使用Apache Spark解决了中等规模数据的问题,但是在海量数据使用Spark的时候还是会遇到各种问题。High Performance Spark将会向你展示如何使用Spark的高级功能,所以你可以超越新手级别。本书适合软件工程师、数据工程师、开发者以及Spark系统管理员的使用。本书全名High Performance Spark:Best Practices for Scaling and Optimizing Apache Spark,作

w397090770   7年前 (2017-06-23) 10517℃ 0评论19喜欢

[电子书]Spark: The Definitive Guide Early Release PDF下载

[电子书]Spark: The Definitive Guide Early Release PDF下载
本书作者:Bill Chambers、Matei Zaharia、Shrey Mehrotra,由O'Reilly Media出版社于2017年1月出版,全书共450页。这里提供的是本书的 Early Release 版本,正式版尚未出版,而且目前还没有完整的内容。由于这本书有Matei Zaharia参与编写,所有很值得一看。通过本书将学习到以下的知识:Get a gentle overview of big data and SparkLearn about DataFrames, SQL, a

zz~~   7年前 (2017-06-22) 6664℃ 0评论26喜欢

Spark Summit 2017 SanFrancisco全部PPT下载[共143个]

Spark Summit 2017 SanFrancisco全部PPT下载[共143个]
Spark Summit 2017会议于2017年06月05日至07日在旧金山(San Francisco)进行,全部会议一共179个。从会议我们得到目前的Spark发展方向主要包括两大主题:深度学习(Deep Learning)提升流系统的性能( Streaming Performance)如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop2016年是深度学习之年,而

w397090770   7年前 (2017-06-18) 1905℃ 0评论4喜欢

[电子书]Machine Learning with Spark Second Edition PDF下载

[电子书]Machine Learning with Spark Second Edition PDF下载
本书作者:Rajdeep Dua、Manpreet Singh Ghotra、 Nick Pentreath,由Packt出版社于2017年04月出版,全书共532页。本书是2015年02月出版的Machine Learning with Spark的第二版。通过本书将学习到以下的知识:Get hands-on with the latest version of Spark MLCreate your first Spark program with Scala and PythonSet up and configure a development environment for Spark on your own computer, as well

zz~~   7年前 (2017-05-27) 4455℃ 0评论14喜欢

Spark sql解析异常java.lang.StackOverflowError处理

Spark sql解析异常java.lang.StackOverflowError处理
如果你在Spark SQL中运行的SQL语句过长的话,会出现 java.lang.StackOverflowError 异常:[code lang="java"]java.lang.StackOverflowError at org.apache.spark.sql.hive.HiveQl$$anonfun$22.apply(HiveQl.scala:924) at org.apache.spark.sql.hive.HiveQl$$anonfun$22.apply(HiveQl.scala:924) at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244) at scala.collection.TraversableLike$$anonfun

w397090770   7年前 (2017-05-17) 6181℃ 0评论7喜欢