欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

标签:Delta Lake

Delta Lake

Delta Lake 提供纯 Scala\Java\Python 操作 API,和 Flink 整合更加容易

Delta Lake 提供纯 Scala\Java\Python 操作 API,和 Flink 整合更加容易
最近,Delta Lake 发布了一项新功能,也就是支持直接使用 Scala、Java 或者 Python 来查询 Delta Lake 里面的数据,这个是不需要通过 Spark 引擎来实现的。Scala 和 Java 读取 Delta Lake 里面的数据是通过 Delta Standalone Reader 实现的;而 Python 则是通过 Delta Rust API 实现的。Delta Lake 是一个开源存储层,为数据湖带来了可靠性。Delta Lake 提供 ACID 事务

w397090770   2周前 (01-05) 103℃ 0评论0喜欢

Delta Lake

Data Lakehouse (湖仓一体) 到底是什么

Data Lakehouse (湖仓一体) 到底是什么
背景数据湖(Data Lake),湖仓一体(Data Lakehouse)俨然已经成为了大数据领域最为火热的流行词,在接受这些流行词洗礼的时候,身为技术人员我们往往会发出这样的疑问,这是一种新的技术吗,还是仅仅只是概念上的翻新(新瓶装旧酒)呢?它到底解决了什么问题,拥有什么样新的特性呢?它的现状是什么,还存在什么问题呢?

w397090770   2个月前 (11-28) 515℃ 0评论2喜欢

Delta Lake

深入理解 Delta Lake 的 DML 实现原理 (Update, Delete, Merge)

深入理解 Delta Lake 的 DML 实现原理 (Update, Delete, Merge)
Delta Lake 支持 DML 命令,包括 DELETE, UPDATE, 以及 MERGE,这些命令简化了 CDC、审计、治理以及 GDPR/CCPA 工作流等业务场景。在这篇文章中,我们将演示如何使用这些 DML 命令,并会介绍这些命令的后背实现,同时也会介绍对应命令的一些性能调优技巧。Delta Lake: 基本原理如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信

w397090770   3个月前 (10-12) 510℃ 0评论0喜欢

Delta Lake

深入理解 Delta Lake:Schema Enforcement & Evolution

深入理解 Delta Lake:Schema Enforcement & Evolution
在实践经验中,我们知道数据总是在不断演变和增长,我们对于这个世界的心智模型必须要适应新的数据,甚至要应对我们从前未知的知识维度。表的 schema 其实和这种心智模型并没什么不同,需要定义如何对新的信息进行分类和处理。这就涉及到 schema 管理的问题,随着业务问题和需求的不断演进,数据结构也会不断发生变化。

w397090770   4个月前 (09-12) 169℃ 0评论0喜欢

Delta Lake

在 Delta Lake 中启用 Spark SQL DDL 和 DML

在 Delta Lake 中启用 Spark SQL DDL 和 DML
Delta Lake 0.7.0 是随着 Apache Spark 3.0 版本发布之后发布的,这个版本比较重要的特性就是支持使用 SQL 来操作 Delta 表,包括 DDL 和 DML 操作。本文将详细介绍如何使用 SQL 来操作 Delta Lake 表,关于 Delta Lake 0.7.0 版本的详细 Release Note 可以参见这里。使用 SQL 在 Hive Metastore 中创建表Delta Lake 0.7.0 支持在 Hive Metastore 中定义 Delta 表,而且这

w397090770   4个月前 (09-06) 433℃ 0评论0喜欢

Delta Lake

Delta Lake 第一篇论文发布了

Delta Lake 第一篇论文发布了
最近,数砖大佬们给 VLDB 投了一篇名为《Delta Lake: High-Performance ACID Table Storage overCloud Object Stores》的论文,并且被 VLDB 收录了,这是第一篇比较系统介绍数砖开发 Delta Lake 的论文。随着云对象存储(Cloud object stores)的普及,因为其廉价的成本,越来越多的企业都选择对象存储作为其海量数据的存储引擎。但是由于对象存储的特点

w397090770   5个月前 (08-25) 593℃ 0评论1喜欢

Apache Iceberg

深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案

深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案
目前市面上流行的三大开源数据湖方案分别为:Delta、Apache Iceberg 和 Apache Hudi。其中,由于 Apache Spark 在商业化上取得巨大成功,所以由其背后商业公司 Databricks 推出的 Delta 也显得格外亮眼。Apache Hudi 是由 Uber 的工程师为满足其内部数据分析的需求而设计的数据湖项目,它提供的 fast upsert/delete 以及 compaction 等功能可以说是精准命中

w397090770   11个月前 (03-05) 991℃ 0评论1喜欢

Delta Lake

还在玩数据仓库?现在已经是 LakeHouse 时代!

还在玩数据仓库?现在已经是 LakeHouse 时代!
引入在Databricks的过去几年中,我们看到了一种新的数据管理范式,该范式出现在许多客户和案例中:LakeHouse。在这篇文章中,我们将描述这种新范式及其相对于先前方案的优势。数据仓库技术自1980诞生以来一直在发展,其在决策支持和商业智能应用方面拥有悠久的历史,而MPP体系结构使得系统能够处理更大数据量。但是,虽

w397090770   12个月前 (02-03) 2370℃ 0评论6喜欢

Delta Lake

Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比
Delta Lake 是数砖公司在2017年10月推出来的一个项目,并于2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上开源的一个存储层。它是 Databricks Runtime 重要组成部分。为 Apache Spark 和大数据 workloads 提供 ACID 事务能力,其通过写和快照隔离之间的乐观并发控制(optimistic concurrency control),在写入数据期间提供一致性的读取,从而为构

w397090770   1年前 (2019-12-24) 3079℃ 0评论7喜欢

Delta Lake

Delta Lake 0.5.0 正式发布,支持包括 Hive/Presto 等多种查询引擎

Delta Lake 0.5.0 正式发布,支持包括 Hive/Presto 等多种查询引擎
Delta Lake 0.5.0 于2019年12月13日正式发布,正式版本可以到 这里 下载使用。这个版本支持多种查询引擎查询 Delta Lake 的数据,比如常见的 Hive、Presto 查询引擎。并发操作得到改进。当然,这个版本还是不支持直接使用 SQL 去增删改查 Delta Lake 的数据,这个可能得等到明年1月的 Apache Spark 3.0.0 的发布。好了,下面我们来详细介绍这个版本

w397090770   1年前 (2019-12-15) 1405℃ 0评论2喜欢