w397090770的文章

Apache Flink 在米哈游的落地实践

摘要：本文是来自米哈游大数据部对于Flink在米哈游应用及实践的分享。本篇内容主要分为四个部分： 1.背景介绍 2.实时平台建设 3.实时数仓和数据湖探索 4.未来发展与展望作者：实时计算负责人张剑背景介绍米哈游成立于2011年，致力于为用户提供美好的、超出预期的产品与内容。公司陆续推出了

3年前 (2022-03-21) 1830℃ 1评论6喜欢

Alluxio

Presto Alluxio Local Cache 监控指南

什么是 Alluxio Local Cache随着云计算在基础设施领域的市场份额持续上升，主流数据分析引擎纷纷选择独立扩展存储、计算来适配云基础设施，并以此为云提供商降低成本。但是，存储计算分离也为查询延迟带来了新的挑战，因为当网络饱和时，通过网络扫描大量数据将受到 IO 限制。此外，元数据也面临远程网络来检索的性能问题。

3年前 (2022-03-21) 806℃ 0评论3喜欢

Presto

Presto 在 Lyft 的实践

2017 年初，我们开始探索 Presto 来解决 OLAP 用例，我们意识到了这个惊人的查询引擎的潜力。与 Apache Hive 相比，它最初是一种临时查询工具，供数据工程师和分析师以更快的方式运行 SQL 来构建查询原型。当时很多内部仪表板都由 AWS-Redshift 提供支持，并将数据存储和计算耦合在一起。我们的数据呈指数级增长（每隔几天翻一番），

3年前 (2022-03-18) 422℃ 0评论1喜欢

Presto

Presto 内部提供了大量内置的函数，可以满足我们大部分的日常需求。但总是有一些场景需要我们自己写 UDF，为了满足这个需求，Presto 给我们提供了 Function Namespace Managers 模块使得我们可以实现直接的 UDF。本文将给大家介绍一下如何使用 Presto 的 UDF 功能。如果需要使用 Function Namespace Managers 功能，需要把 presto-catalog-managers 模块里

3年前 (2022-03-15) 1171℃ 0评论1喜欢

Uber

Uber 如何在 Apache Parquet 中使用 ZSTD 压缩减少大量存储空间实践

背景我们基于 Apache Hadoop® 的数据平台以最小的延迟支持了数百 PB 的分析数据，并将其存储在基于 HDFS 之上的数据湖中。我们使用 Apache Hudi™ 作为我们表的维护格式，使用 Apache Parquet™ 作为底层文件格式。我们的数据平台利用 Apache Hive™、Apache Presto™ 和 Apache Spark™ 进行交互和长时间运行的查询，满足 Uber 不同团队的各种需求。

3年前 (2022-03-13) 2799℃ 0评论2喜欢

ClickHouse

ClickHouse 在网易的实践

ClickHouse作为一款开源列式数据库管理系统（DBMS）近年来备受关注，主要用于数据分析（OLAP）领域。作者根据以往经验和遇到的问题，总结出一些基本的开发和使用规范，以供使用者参考。随着公司业务数据量日益增长，数据处理场景日趋复杂，急需一种具有高可用性和高性能的数据库来支持业务发展，ClickHouse是俄罗斯的搜索公

3年前 (2022-03-10) 1797℃ 0评论1喜欢

Alluxio

通过 Alluxio 来加速 Uber 的 Presto 集群

本资料来自2022年03月03日举办的 Alluxio Day 活动。分享议题《Speed Up Uber’s Presto with Alluxio》，分享者 Liang Chen 和王北南。Uber 的 Liang Chen 和 Alluxio 的王北南将为大家呈现 Alluxio Local Cache 上线过程中遇到的实际问题和有趣的发现。他们的演讲涵盖了 Uber 的 Presto 团队如何解决 Alluxio 的本地缓存失效的问题。Liang Chen 还将分享他使用定

3年前 (2022-03-07) 410℃ 0评论2喜欢

Presto

避免 Presto 中的数据孤岛：从 Raptor 到 RaptorX 的旅程

Raptor 是一个 Presto connector (presto-raptor)，用于支持 Meta（以前的 Facebook）中的一些关键的交互式查询工作负载。尽管在 ICDE 2019 年的论文《Presto: SQL on Everything》中提到了这个特性，但对于许多 Presto 用户来说，它仍然有些神秘，因为没有关于这个特性的可用文档。本文将介绍 Raptor 的历史，以及为什么 Meta 最终取代了它，转而支持一种

3年前 (2022-03-06) 445℃ 0评论1喜欢

Presto

Presto 常用性能优化技巧

Presto 是一个用于分析的开源分布式 ANSI SQL 查询引擎，支持计算和存储的分离。性能对于一些分析查询尤其重要，因此 Presto 有许多设计特性来最大化 Presto 的速度，比如内存中的流水线执行（memory pipelined execution）、分布式的扩展架构和大规模并行处理（MPP）设计。Presto支持的具体性能特性：数据压缩（SNAPPY, LZ4, ZSTD 以及 GZIP）

3年前 (2022-03-02) 1715℃ 0评论3喜欢

Apache Pulsar

Apache Pulsar in Action 下载

《Apache Pulsar in Action》于 2021年10月由 Manning 出版， ISBN 为 9781617296888 ，全书 400 页。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop图书介绍《Apache Pulsar in Action》能够无缝地将理论和抽象概念与清晰的循序渐进的实例结合在一起，我愿意向任何人推荐!--- Matteo Merli, co-creator of Apache PulsarDe

3年前 (2022-03-02) 947℃ 0评论1喜欢

上一页
1
2
3
4
5
6
7
8
9
10
11
...
134
下一页
共 134 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

w397090770的文章

Apache Flink 在米哈游的落地实践

Presto Alluxio Local Cache 监控指南

Presto 在 Lyft 的实践

Presto 自定义函数功能介绍及使用

Uber 如何在 Apache Parquet 中使用 ZSTD 压缩减少大量存储空间实践

ClickHouse 在网易的实践

通过 Alluxio 来加速 Uber 的 Presto 集群

避免 Presto 中的数据孤岛：从 Raptor 到 RaptorX 的旅程

Presto 常用性能优化技巧

Apache Pulsar in Action 下载