欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:1060
  2. 浏览总数:14,243,452
  3. 评论:4167
  4. 分类目录:111 个
  5. 注册用户数:7028
  6. 最后更新:2019年9月21日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
开发爱好者社区:
bigdata_ai

这可能是学习 Spark Delta Lake 最全的资料

Delta Lake 是一个存储层,为 Apache Spark 和大数据 workloads 提供 ACID 事务能力,其通过写和快照隔离之间的乐观并发控制(optimistic concurrency control),在写入数据期间提供一致性的读取,从而为构建在 HDFS 和云存储上的数据湖(data lakes)带来可靠性。Delta Lake 还提供内置数据版本控制,以便轻松回滚。

为了更好的学习 Delta Lake ,本文收集了互联网上各种关于 Apache Spark Delta Lake 的资料,供大家学习交流,包括 PPT、视频、源码解析、技术文章等;另外,本文也会持续不断更新。

Apache Spark 社区期待的 Delta Lake 开源了
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop

PPT & 视频

目前关于 Delta Lake 的视频和 PPT 基本上都来自 Databricks 的大神们在各种场合分享的,本文对这些分享的资料进行了收集,具体如下:

Delta Lake - Open Source Reliability for Data Lakes

本分享来自 Michael Armbrust,负责 Delta Lake 的首席工程师,也是 Spark SQL 和 Structured Streaming 的核心开发者。这篇 PPT 介绍的比较详细,涉及到 Delta Lake 项目诞生背景、核心功能以及实现原理等。
配套视频 & PPT 下载:关注 开发爱好者社区(bigdata_ai) 微信公众号,并回复 2596_1 获取。

这可能是学习 Spark Delta Lake 最全的资料
如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公众号:iteblog_hadoop

Making Apache Spark™ Better with Delta Lake

也是 Michael Armbrust 分享的。主题主要包括以下内容:

  • Apache Spark 在大数据处理中的作用;
  • 使用数据湖作为数据架构的重要组成部分;
  • 数据湖可靠性挑战;
  • Delta Lake 如何为 Spark 提供可靠的数据
  • Delta Lake 具体改进
  • 采用 Delta Lake 为您的数据湖提供动力

配套视频 & PPT 下载:关注 开发爱好者社区(bigdata_ai) 微信公众号,并回复 2596_2 获取。

Getting Data Ready for Data Science

分享者 Prakash Chockalingam,他是 Databricks 的产品经理。本 PPT 主要内容为:

  • 数据科学生命周期
  • 数据工程对数据科学的重要性
  • 现代数据工程的关键原则
  • Delta Lake 如何帮助为分析提供可靠的数据
  • 采用 Delta Lake 为您的数据湖提供动力的便利性
  • 如何在您的数据基础架构中加入 Delta Lake 以启用数据科学

配套视频下载:关注 开发爱好者社区(bigdata_ai) 微信公众号,并回复 2596_3 获取。

Simplify and Scale Data Engineering Pipelines with Delta Lake

分享者 Joe Widen(Databricks 的高级解决方案架构师) 以及 Denny Lee(Databricks 的开发人员、倡导者)
配套视频 & PPT 下载:关注 开发爱好者社区(bigdata_ai) 微信公众号,并回复 2596_4 获取。

Next-generation scalable data lakes

分享者 Prakash Chockalingam,他是 Databricks 的产品经理。
配套 PPT 下载:关注 开发爱好者社区(bigdata_ai) 微信公众号,并回复 2596_5 获取。

技术文章 & 源码解析

帮助文档

项目地址

Delta Lake: https://github.com/delta-io/delta

未来规划

总体来说,未来版本将支持 Python & SQL API。

本博客文章除特别声明,全部都是原创!
转载本文请加上:转载自过往记忆(https://www.iteblog.com/)
本文链接: 【这可能是学习 Spark Delta Lake 最全的资料】(https://www.iteblog.com/archives/2596.html)
喜欢 (2)
分享 (0)
发表我的评论
取消评论

表情
本博客评论系统带有自动识别垃圾评论功能,请写一些有意义的评论,谢谢!