标签：数据湖

Uber 如何在 Apache Parquet 中使用 ZSTD 压缩减少大量存储空间实践

背景我们基于 Apache Hadoop® 的数据平台以最小的延迟支持了数百 PB 的分析数据，并将其存储在基于 HDFS 之上的数据湖中。我们使用 Apache Hudi™ 作为我们表的维护格式，使用 Apache Parquet™ 作为底层文件格式。我们的数据平台利用 Apache Hive™、Apache Presto™ 和 Apache Spark™ 进行交互和长时间运行的查询，满足 Uber 不同团队的各种需求。

w397090770 3年前 (2022-03-13) 2819℃ 0评论2喜欢

公众号转载文章

一文理解实时数据仓库的演进

数据处理现状：当前基于Hive的离线数据仓库已经非常成熟，数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀，业界最近几年就一直聚焦并探索于两个相关的热点问题：实时数仓建设和大数据架构的批流一体建设。实时数仓建设：实时数仓1.0 传统

w397090770 3年前 (2022-02-18) 832℃ 0评论2喜欢

公众号转载文章

数据湖统一存储在 OPPO 的实践

分享嘉宾：Xiaochun He OPPO，编辑整理：门君仪澳洲国立大学导读：OPPO是一家智能终端制造公司，有着数亿的终端用户，手机、IoT设备产生的数据源源不断，设备的智能化服务需要我们对这些数据做更深层次的挖掘。海量的数据如何低成本存储、高效利用是大数据部门必须要解决的问题。目前业界流行的解决方案是数据湖，本次

w397090770 3年前 (2022-02-18) 466℃ 0评论2喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

标签：数据湖

Uber 如何在 Apache Parquet 中使用 ZSTD 压缩减少大量存储空间实践

一文理解实时数据仓库的演进

数据湖统一存储在 OPPO 的实践