2017年07月的内容

Apache Spark 2.2.0正式发布

关于 Apache Spark 2.2.0 的详细新功能介绍请参见：《Apache Spark 2.2.0新特性详细介绍》Apache Spark 2.2.0 持续了半年的开发，从RC1 到 RC6 终于在今天正式发布了。本版本是 2.x 版本线的第三个版本。在这个版本 Structured Streaming 的实验性标记（experimental tag）已经被移除，这也意味着后面的 2.2.x 之后就可以放心在线上使用了。除此之外，这

w397090770 7年前 (2017-07-12) 2750℃ 0评论8喜欢

Spark

Spark SQL中Join常用的几种实现

引言Join是SQL语句中的常用操作，良好的表结构能够将数据分散在不同的表中，使其符合某种范式，减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。SparkSQL作为大数据领域的SQL实现，自然也对Join操作做了不少优化，今天主要看一下在SparkSQL中对于Join，常见的3种实现。Spark SQL中Join常用的实现Broadc

zz~~ 7年前 (2017-07-09) 8281℃ 0评论16喜欢

Spark

[电子书]Apache Spark 2.x Cookbook, 2nd Edition PDF下载

本书于2017-05由Packt Publishing出版，作者Rishi Yadav，全书294页。从书名就可以看出这是一本讲解技巧的书。本书副标题：Over 70 recipes to help you use Apache Spark as your single big data computing platform and master its libraries。本书适合数据工程师，数据科学家以及那些想使用Spark的读者。阅读本书之前最好有Scala的编程基础。通过本书你将学到以下知识

zz~~ 7年前 (2017-07-07) 4813℃ 0评论16喜欢

ElasticSearch

在Apache Zeppelin中安装使用Elasticsearch Interpreter

从Apache Zeppelin 0.5.6 版本开始，内置支持 Elasticsearch Interpreter了。我们可以直接在Apache Zeppelin中查询 ElasticSearch 中的数据。但是默认的 Apache Zeppelin 发行版本中可能并没有包含 Elasticsearch Interpreter。这种情况下我们需要自己安装。如果你参照了官方的这篇文档，即使你全部看完这篇文档，也是无法按照上面的说明启用 Elasticsearch Interpre

w397090770 7年前 (2017-07-05) 1827℃ 0评论5喜欢

Flink

如何在Spark、MapReduce和Flink程序里面指定JAVA_HOME

大家在使用Spark、MapReduce 或 Flink 的时候很可能遇到这样一种情况：Hadoop 集群使用的 JDK 版本为1.7.x，而我们自己编写的程序由于某些原因必须使用 1.7 以上版本的JDK，这时候如果我们直接使用 JDK 1.8、或 1.9 来编译我们写好的代码，然后直接提交到 YARN 上运行，这时候会遇到以下的异常：[code lang="java"]Exception in thread "main" jav

w397090770 7年前 (2017-07-04) 5291℃ 1评论16喜欢

上一页
1
2
共 2 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据