欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

 分类:hudi

Apache Hudi 是如何处理小文件的

Apache Hudi 是如何处理小文件的
Apache Hudi 是一种数据湖平台技术,它提供了构建和管理数据湖所需的几个功能。hudi 提供的一个关键特性是自我管理文件大小,这样用户就不需要担心手动维护表。拥有大量的小文件将使计算更难获得良好的查询性能,因为查询引擎不得不多次打开/读取/关闭文件以执行查询。但是对于流数据湖用例来说,可能每次都只会写入很少的

w397090770   3个月前 (08-03) 321℃ 0评论1喜欢

Apache Hudi 0.8.0 版本发布,Flink 集成有重大提升以及支持并行写

Apache Hudi 0.8.0 版本发布,Flink 集成有重大提升以及支持并行写
迁移指南如果从 0.5.3 以下版本迁移,请检查这个版本后面的其他版本的升级说明。如果需要升级到 0.8 版本,请参阅 0.6.0 版本的升级指南,因为本版本没有引入新的表版本(table versions)HoodieRecordPayload接口不建议使用现有方法,而推荐使用新方法,该方法还允许我们在运行时传递属性。 鼓励用户从不建议使用的方法中迁移

w397090770   6个月前 (04-14) 511℃ 0评论1喜欢

Apache Hudi Clustering 数据布局功能介绍

Apache Hudi Clustering 数据布局功能介绍
背景Apache Hudi将流处理带到大数据,相比传统批处理效率高一个数量级,提供了更新鲜的数据。在数据湖/仓库中,需要在摄取速度和查询性能之间进行权衡,数据摄取通常更喜欢小文件以改善并行性并使数据尽快可用于查询,但很多小文件会导致查询性能下降。在摄取过程中通常会根据时间在同一位置放置数据,但如果把查询频

w397090770   8个月前 (02-24) 878℃ 0评论3喜欢

Apache Hudi 0.7.0 版本发布,新特性介绍

Apache Hudi 0.7.0 版本发布,新特性介绍
本版本迁移指南 If migrating from release older than 0.5.3, please also check the upgrade instructions for each subsequent release below. Specifically check upgrade instructions for 0.6.0. This release does not introduce any new table versions. The HoodieRecordPayload interface deprecated existing methods, in favor of new ones that also lets us pass properties at runtime. Users areencouraged to migrate out of the depr

w397090770   9个月前 (01-31) 51℃ 0评论0喜欢

盘点2020年晋升为Apache TLP的大数据相关项目

盘点2020年晋升为Apache TLP的大数据相关项目
在过去一年有很多 Apache 孵化项目顺利毕业成顶级项目(Top-Level Project ,简称 TLP ),在这里我将给大家盘点 2020 年晋升为 Apache TLP 的大数据相关项目。在2020年一共有四个大数据相关项目顺利毕业成顶级项目,主要是 Apache® ShardingSphere™、Apache® Hudi™、Apache® Iceberg™ 以及 Apache® IoTDB™,这里以毕业的时间顺序依次介绍。关于过

w397090770   10个月前 (01-03) 1139℃ 0评论4喜欢

Apache Hudi 现在也支持 Flink 引擎了

Apache Hudi 现在也支持 Flink 引擎了
本文作者:王祥虎,原文链接:https://mp.weixin.qq.com/s/LvKaj5ytk6imEU5Dc1Sr5Q,欢迎关注 Apache Hudi 技术社区公众号:ApacheHudi。Apache Hudi是由Uber开发并开源的数据湖框架,它于2019年1月进入Apache孵化器孵化,次年5月份顺利毕业晋升为Apache顶级项目。是当前最为热门的数据湖框架之一。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢

w397090770   1年前 (2020-10-09) 1488℃ 0评论2喜欢

Apache Hudi 0.6.0 版本发布,新功能介绍

Apache Hudi 0.6.0 版本发布,新功能介绍
本文英文原文:https://hudi.apache.org/releases.html下载信息源码:Apache Hudi 0.6.0 Source Release (asc, sha512)二进制Jar包:nexus如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop2. 迁移指南如果您从0.5.3以前的版本迁移至0.6.0,请仔细核对每个版本的迁移指南;0.6.0版本从基于list的rollback策略变更为

w397090770   1年前 (2020-09-02) 692℃ 0评论0喜欢

官宣,Apache Hudi 正式成为 Apache 顶级项目

官宣,Apache Hudi 正式成为 Apache 顶级项目
2020年6月4日,马萨诸塞州韦克菲尔德(Wakefield, MA)—— Apache 软件基金会(ASF),超过350个开源项目和计划的全志愿者开发人员、管理人员和孵化器,正式宣布 Apache Hudi 成为顶级项目(Top-Level Project 、TLP)。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopApache Hudi (Hadoop Upserts delete and Incrementa

w397090770   1年前 (2020-06-04) 1030℃ 0评论5喜欢

恭喜,Apache Hudi 即将成为顶级项目

恭喜,Apache Hudi 即将成为顶级项目
美国当地时间2020年05月11日,Apache Hudi 项目的共同创始人、PMC Vinoth Chandar 给社区发了一封标题为 [DISCUSS] Graduate Apache Hudi (Incubating) as a TLP 的邮件,来投票讨论 Apache Hudi 毕业成为 Apache TLP 项目。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop2020年05月19日共40人投票赞成 。不久社区给 Apache 董事

w397090770   1年前 (2020-05-22) 953℃ 0评论1喜欢

深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案

深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案
目前市面上流行的三大开源数据湖方案分别为:Delta、Apache Iceberg 和 Apache Hudi。其中,由于 Apache Spark 在商业化上取得巨大成功,所以由其背后商业公司 Databricks 推出的 Delta 也显得格外亮眼。Apache Hudi 是由 Uber 的工程师为满足其内部数据分析的需求而设计的数据湖项目,它提供的 fast upsert/delete 以及 compaction 等功能可以说是精准命中

w397090770   2年前 (2020-03-05) 2595℃ 0评论2喜欢