欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

标签:数据湖

Uber

Uber 如何在 Apache Parquet 中使用 ZSTD 压缩减少大量存储空间实践

Uber 如何在 Apache Parquet 中使用 ZSTD 压缩减少大量存储空间实践
背景我们基于 Apache Hadoop® 的数据平台以最小的延迟支持了数百 PB 的分析数据,并将其存储在基于 HDFS 之上的数据湖中。我们使用 Apache Hudi™ 作为我们表的维护格式,使用 Apache Parquet™ 作为底层文件格式。我们的数据平台利用 Apache Hive™、Apache Presto™ 和 Apache Spark™ 进行交互和长时间运行的查询,满足 Uber 不同团队的各种需求。

w397090770   2年前 (2022-03-13) 1998℃ 0评论0喜欢

公众号转载文章

一文理解实时数据仓库的演进

一文理解实时数据仓库的演进
数据处理现状:当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数仓建设和大数据架构的批流一体建设。实时数仓建设:实时数仓1.0 传统

w397090770   2年前 (2022-02-18) 606℃ 0评论1喜欢

公众号转载文章

数据湖统一存储在 OPPO 的实践

数据湖统一存储在 OPPO 的实践
分享嘉宾:Xiaochun He OPPO,编辑整理:门君仪 澳洲国立大学 导读:OPPO是一家智能终端制造公司,有着数亿的终端用户,手机 、IoT设备产生的数据源源不断,设备的智能化服务需要我们对这些数据做更深层次的挖掘。海量的数据如何低成本存储、高效利用是大数据部门必须要解决的问题。目前业界流行的解决方案是数据湖,本次

w397090770   2年前 (2022-02-18) 381℃ 0评论1喜欢