欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

Delta Lake: The Definitive Guide 预览版下载

本书作者 Denny Lee, Tathagata Das, Vini Jaiswal,预计2022年4月出版,出版社 O'Reilly Media, Inc.,ISBN:9781098104528

分析和机器学习模型的好坏取决于它们所依赖的数据。查询处理过的数据并从中获得见解需要一个健壮的数据管道——以及一个有效的存储解决方案,以确保数据质量、数据完整性和性能。

本指南向您介绍 Delta Lake,这是一种开源格式,可以在现有存储系统(如S3、ADLS、GCS 和 HDFS)之上构建 Lake house 架构。Delta Lake 增强了 Apache Spark,通过支持数据完整性、数据质量和性能,使存储和管理大量复杂数据变得更加容易。数据工程师、数据科学家和数据实践者将学习如何利用 Delta Lake 建立可靠的数据湖和大规模数据管道。

  • 了解关键的数据可靠性挑战以及如何解决它们
  • 了解如何使用 Delta Lake 提高数据可靠性
  • 在数据湖上并发地运行流作业和批处理作业
  • 在数据湖上执行更新、删除和合并命令
  • 使用时间旅行来回滚和检查以前的数据版本
  • 学习为真实世界用例构建有效、高质量的端到端数据管道的最佳实践
  • 与其他数据技术集成,如 Presto, Athena, Redshift 和其他 BI 工具
  • 了解数以千计的公司是如何在他们的 lakehouse 架构中利用 Delta Lake 来处理 EB 级别的数据。

如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据

下载地址

关注过往记忆大数据微信公众号,并回复 9970 获取。

图书目录

1. Basic Operations on Delta Lakes
    What is Delta Lake?
    How to start using Delta Lake
        Using Delta Lake via local Spark shells
        Leveraging GitHub or Maven
        Using Databricks Community Edition
    Basic operations
        Creating your first Delta table
    Unpacking the Transaction Log
        What Is the Delta Lake Transaction Log?
        How Does the Transaction Log Work?
        Dealing With Multiple Concurrent Reads and Writes
        Other Use Cases
        Diving further into the transaction log
    Table Utilities
        Review table history
        Vacuum History
        Retrieve Delta table details
        Generate a manifest file
        Convert a Parquet table to a Delta table
        Convert a Delta table to a Parquet table
        Restore a table version
    Summary
2. Time Travel with Delta Lake
    Introduction
    Under the hood of a Delta Table
        The Delta Directory
        Delta Logs Directory
        The files of a Delta table
    Time Travel
        Common Challenges with Changing Data
        Working with Time Travel
        Time travel use cases
        Time travel considerations
    Summary
3. Continuous Applications with Delta Lake
    Make All Your Streams Come True
        Spark Streaming Was Built to Unify Batch and Streaming
        Exactly-Once Semantics
        Putting Some Structure Around Streaming
        Streaming with Delta
        Delta as a Stream Source
        Ignore Updates and Deletes
        Delta Table as a Sink
        Appendix
本博客文章除特别声明,全部都是原创!
原创文章版权归过往记忆大数据(过往记忆)所有,未经许可不得转载。
本文链接: 【Delta Lake: The Definitive Guide 预览版下载】(https://www.iteblog.com/archives/9970.html)
喜欢 (2)
分享 (0)
发表我的评论
取消评论

表情
本博客评论系统带有自动识别垃圾评论功能,请写一些有意义的评论,谢谢!