2022年03月的内容

Uber 如何在 Apache Parquet 中使用 ZSTD 压缩减少大量存储空间实践

背景我们基于 Apache Hadoop® 的数据平台以最小的延迟支持了数百 PB 的分析数据，并将其存储在基于 HDFS 之上的数据湖中。我们使用 Apache Hudi™ 作为我们表的维护格式，使用 Apache Parquet™ 作为底层文件格式。我们的数据平台利用 Apache Hive™、Apache Presto™ 和 Apache Spark™ 进行交互和长时间运行的查询，满足 Uber 不同团队的各种需求。

w397090770 2年前 (2022-03-13) 1933℃ 0评论0喜欢

ClickHouse

ClickHouse 在网易的实践

ClickHouse作为一款开源列式数据库管理系统（DBMS）近年来备受关注，主要用于数据分析（OLAP）领域。作者根据以往经验和遇到的问题，总结出一些基本的开发和使用规范，以供使用者参考。随着公司业务数据量日益增长，数据处理场景日趋复杂，急需一种具有高可用性和高性能的数据库来支持业务发展，ClickHouse是俄罗斯的搜索公

w397090770 2年前 (2022-03-10) 1497℃ 0评论0喜欢

Alluxio

通过 Alluxio 来加速 Uber 的 Presto 集群

本资料来自2022年03月03日举办的 Alluxio Day 活动。分享议题《Speed Up Uber’s Presto with Alluxio》，分享者 Liang Chen 和王北南。Uber 的 Liang Chen 和 Alluxio 的王北南将为大家呈现 Alluxio Local Cache 上线过程中遇到的实际问题和有趣的发现。他们的演讲涵盖了 Uber 的 Presto 团队如何解决 Alluxio 的本地缓存失效的问题。Liang Chen 还将分享他使用定

w397090770 2年前 (2022-03-07) 256℃ 0评论0喜欢

Presto

避免 Presto 中的数据孤岛：从 Raptor 到 RaptorX 的旅程

Raptor 是一个 Presto connector (presto-raptor)，用于支持 Meta（以前的 Facebook）中的一些关键的交互式查询工作负载。尽管在 ICDE 2019 年的论文《Presto: SQL on Everything》中提到了这个特性，但对于许多 Presto 用户来说，它仍然有些神秘，因为没有关于这个特性的可用文档。本文将介绍 Raptor 的历史，以及为什么 Meta 最终取代了它，转而支持一种

w397090770 2年前 (2022-03-06) 321℃ 0评论0喜欢

Presto

Presto 常用性能优化技巧

Presto 是一个用于分析的开源分布式 ANSI SQL 查询引擎，支持计算和存储的分离。性能对于一些分析查询尤其重要，因此 Presto 有许多设计特性来最大化 Presto 的速度，比如内存中的流水线执行（memory pipelined execution）、分布式的扩展架构和大规模并行处理（MPP）设计。Presto支持的具体性能特性：数据压缩（SNAPPY, LZ4, ZSTD 以及 GZIP）

w397090770 2年前 (2022-03-02) 1383℃ 0评论2喜欢

Apache Pulsar

Apache Pulsar in Action 下载

《Apache Pulsar in Action》于 2021年10月由 Manning 出版， ISBN 为 9781617296888 ，全书 400 页。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop图书介绍《Apache Pulsar in Action》能够无缝地将理论和抽象概念与清晰的循序渐进的实例结合在一起，我愿意向任何人推荐!--- Matteo Merli, co-creator of Apache PulsarDe

w397090770 2年前 (2022-03-02) 707℃ 0评论0喜欢

Kafka

Kafka in Action 下载

《Kafka in Action》于 2022年01月由 Manning 出版， ISBN 为 9781617295232 ，全书 272 页。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop图书介绍作者有多年使用 Kafka 的真实世界的经验，这本书的实地感觉真的让它与众不同。---- From the foreword by Jun Rao, Confluent CofounderMaster the wicked-fast Apache Kafka streaming

w397090770 2年前 (2022-03-02) 477℃ 0评论2喜欢

Apache Doris

Apache Doris 向量化设计与实现

导读：向量化技术带来极致的CPU效率的同时，也已经成为了软件开发的趋势，而数据库的向量化不仅仅是 CPU 指令的向量化，还是一个巨大的性能优化工程。本文从CPU向量化原理出发，通过Cache、虚函数、SIMD等方面讨论CPU的性能优化，介绍了Apache Doris现有列存行式计算结构向列存列式计算结构的转变，同时展示了目前Apache D

w397090770 2年前 (2022-03-01) 1026℃ 0评论2喜欢

上一页
1
2
共 2 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据