欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

2021年05月的内容

Delta Lake

Delta Lake 1.0.0 发布,多项新特性重磅发布

Delta Lake 1.0.0 发布,多项新特性重磅发布
赶在 Data + AI Summit 2021 之前,Delta Lake 1.0.0 重磅发布,这个版本是基于 Spark 3.1 的,带来了许多新特性。本文将结合 Michael Armbrust 大牛在 Data + AI Summit 2021 的演讲《Announcing Delta Lake 1.0》来介绍 Delta Lake 1.0.0 版本的一些重要的新特性。 如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据 Delta Lake 0.1

w397090770   5年前 (2021-05-27) 977℃ 0评论 2喜欢

Delta Lake

Delta Lake: The Definitive Guide 预览版下载

Delta Lake: The Definitive Guide 预览版下载
本书作者 Denny Lee, Tathagata Das, Vini Jaiswal,预计2022年4月出版,出版社 O'Reilly Media, Inc.,ISBN:9781098104528 分析和机器学习模型的好坏取决于它们所依赖的数据。查询处理过的数据并从中获得见解需要一个健壮的数据管道——以及一个有效的存储解决方案,以确保数据质量、数据完整性和性能。 本指南向您介绍 Delta Lake,这是一种开

w397090770   5年前 (2021-05-27) 646℃ 0评论 2喜欢

Delta Lake

Data Lakehouse 的演变

Data Lakehouse 的演变
本文是 Forest Rim Technology 数据团队撰写的,作者 Bill Inmon 和 Mary Levins,其中 Bill Inmon 被称为是数据仓库之父,最早的数据仓库概念提出者,被《计算机世界》评为计算机行业历史上最具影响力的十大人物之一。 原始数据的挑战 随着大量应用程序的出现,产生了相同的数据在不同地方出现不同值的情况。为了做出决定,用户必须找

w397090770   5年前 (2021-05-25) 712℃ 0评论 0喜欢

Spark

Apache Spark 3.0 是如何提高 SQL 工作负载的性能

Apache Spark 3.0 是如何提高 SQL 工作负载的性能
在几乎所有处理复杂数据的领域,Spark 已经迅速成为数据和分析生命周期团队的事实上的分布式计算框架。Spark 3.0 最受期待的特性之一是新的自适应查询执行框架(Adaptive Query Execution,AQE),该框架解决了许多 Spark SQL 工作负载遇到的问题。AQE 在2018年初由英特尔和百度组成的团队最早实现。AQE 最初是在 Spark 2.4 中引入的, Spark 3.0 做

w397090770   5年前 (2021-05-23) 1352℃ 0评论 2喜欢

Spark

Apache Spark 3.1 中 Structured Streaming 方面的改进

Apache Spark 3.1 中 Structured Streaming 方面的改进
Apache Spark 3.1.x 版本发布到现在已经过了两个多月了,这个版本继续保持使得 Spark 更快,更容易和更智能的目标,Spark 3.1 的主要目标如下: 提升了 Python 的可用性; 加强了 ANSI SQL 兼容性; 加强了查询优化; Shuffle hash join 性能提升; History Server 支持 structured streaming 更多详情请参见这里。在这篇博文中,我们总结了3.1版本中

w397090770   5年前 (2021-05-16) 828℃ 0评论 3喜欢