欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

有关【Hadoop】的内容

Flink

Flink动态表的连续查询(Continuous Queries on Dynamic Tables)

Flink动态表的连续查询(Continuous Queries on Dynamic Tables)
越来越多的公司采用流处理,并将现有的批处理应用迁移到流处理,或者对新的用例采用流处理实现的解决方案。其中许多应用集中在流数据分析上,分析的数据流来自各种源,例如数据库事务、点击、传感器测量或 IoT 设备。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢......

w397090770   8年前 (2017-07-20) 3590℃ 0评论16喜欢

Spark

Apache Spark 2.2.0新特性详细介绍

Apache Spark 2.2.0新特性详细介绍
Apache Spark 2.2.0 经过了大半年的紧张开发,从RC1到RC6终于在今天正式发布了。由于时间的缘故,我并没有在《Apache Spark 2.2.0正式发布》文章中过多地介绍 Apache Spark 2.2.0 的新特性,本文作为补充将详细介绍Apache Spark 2.2.0 的新特性。这个版本是 Structured Str......

w397090770   8年前 (2017-07-12) 9386℃ 0评论28喜欢

HBase

基于 HBase 构建可伸缩的分布式事务队列

基于 HBase 构建可伸缩的分布式事务队列
一个实时流处理框架通常需要两个基础架构:处理器和队列。处理器从队列中读取事件,执行用户的处理代码,如果要继续对结果进行处理,处理器还会把事件写到另外一个队列。队列由框架提供并管理。队列做为处理器之间的缓冲,传输数据和事件,这样处理器可以单独操作和扩展。例......

w397090770   8年前 (2017-07-12) 612℃ 0评论0喜欢

Spark

Apache Spark 2.2.0正式发布

Apache Spark 2.2.0正式发布
关于 Apache Spark 2.2.0 的详细新功能介绍请参见:《Apache Spark 2.2.0新特性详细介绍》Apache Spark 2.2.0 持续了半年的开发,从RC1 到 RC6 终于在今天正式发布了。本版本是 2.x 版本线的第三个版本。在这个版本 Structured Streaming 的实验性标记(experimental tag)......

w397090770   8年前 (2017-07-12) 2935℃ 0评论8喜欢

Spark

Spark SQL中Join常用的几种实现

Spark SQL中Join常用的几种实现
引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于Jo......

zz~~   8年前 (2017-07-09) 8373℃ 0评论16喜欢

Spark

[电子书]Apache Spark 2.x Cookbook, 2nd Edition PDF下载

[电子书]Apache Spark 2.x Cookbook, 2nd Edition PDF下载
本书于2017-05由Packt Publishing出版,作者Rishi Yadav,全书294页。从书名就可以看出这是一本讲解技巧的书。本书副标题:Over 70 recipes to help you use Apache Spark as your single big data computing platform and master its libraries。本书适合数据工程师,数据......

zz~~   8年前 (2017-07-07) 4885℃ 0评论16喜欢

Flink

如何在Spark、MapReduce和Flink程序里面指定JAVA_HOME

如何在Spark、MapReduce和Flink程序里面指定JAVA_HOME
大家在使用Spark、MapReduce 或 Flink 的时候很可能遇到这样一种情况:Hadoop 集群使用的 JDK 版本为1.7.x,而我们自己编写的程序由于某些原因必须使用 1.7 以上版本的JDK,这时候如果我们直接使用 JDK 1.8、或 1.9 来编译我们写好的代码,然后直接提交到 YARN 上运行,这时......

w397090770   8年前 (2017-07-04) 5581℃ 1评论16喜欢

Hive

Hive删除外部表异常(Table metadata not deleted)

Hive删除外部表异常(Table metadata not deleted)
问题我们应该知道,Hive中存在两种类型的表:管理表(Managed table,又称Internal tables)和外部表(External tables),详情请参见《Hive表与外部表》。在公司内,特别是部门之间合作,很可能会通过 HDFS 共享一些 Hive 表数据,这时候我们一般都是参见外部表。比如我们......

w397090770   8年前 (2017-06-27) 5023℃ 1评论16喜欢

Scala

Scala正则表达式替换

Scala正则表达式替换
在之前的博文《Scala正则表达式》我简单地介绍了如何在Scala中使用正则表达式来匹配一些我们需要的内容。本篇文章将接着此文继续简单介绍如何使用Scala来匹配出我们需要的字符串,然后使用某种规则来替换匹配出来的字符串。如果想及时了解Spark、Hadoop或者Hbase相关的文......

w397090770   8年前 (2017-06-26) 8522℃ 0评论15喜欢