欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

 分类:Presto

Presto 在字节跳动的实践

Presto 在字节跳动的实践
本文资料来自2021年12月09日举办的 PrestoCon 2021,议题为《Presto at Bytedance》,分享者常鹏飞,字节跳动软件工程师。Presto 在字节跳动中得到了广泛的应用,如数据仓库、BI工具、广告等。与此同时,字节跳动的 presto 团队也提供了许多重要的特性和优化,如 Hive UDF Wrapper、多个协调器、运行时过滤器等,扩展了 presto

w397090770   6个月前 (12-14) 300℃ 0评论1喜欢

Presto 在字节跳动的应用

Presto 在字节跳动的应用
本资料来自2021年12月09日举办的 PrestoCon 2021,标题为《Presto at Bytedance》Presto 在字节跳动中得到了广泛的应用,如数据仓库、BI工具、广告等。与此同时,字节跳动的 presto 团队也提供了许多重要的特性和优化,如 Hive UDF Wrapper、多个协调器、运行时过滤器等,扩展了 presto 的用法,增强了 presto 的稳定性。下面是字节跳动目前 Presto

w397090770   7个月前 (12-08) 247℃ 0评论0喜欢

Presto 在腾讯的使用

Presto 在腾讯的使用
本资料来自2021年12月09日举办的 PrestoCon 2021,标题为《Presto at Tencent at Scale: Usability Extension, Stability Improvement and Performance Optimization》Presto 在腾讯内部为不同业务部门提供临时查询(ad-hoc queries)和交互式查询( interactive queries)场景。在这次演讲中,我们将分享腾讯在生产中的实践。并且将讨论腾讯在 Presto 上面的工作,以进一步

w397090770   7个月前 (12-08) 192℃ 0评论0喜欢

RaptorX: 将 Presto 性能提升十倍

RaptorX: 将 Presto 性能提升十倍
存储计算分离是整个行业的发展趋势,这种架构的存储和计算可以各自独立发展,它帮助云提供商降低成本。Presto 原生就支持这样的架构,数据可以从 Presto 服务器之外的远程存储节点传输过来。然而,存储计算分解也为查询延迟带来了新的挑战,因为当网络饱和时,通过网络扫描大量数据将受到 IO 限制。 此外,元数据的读取

w397090770   7个月前 (12-05) 454℃ 0评论1喜欢

创建 Presto Docker 镜像教程

创建 Presto Docker 镜像教程
PrestoDB 官方并没有提供 Docker 镜像,但是其为我们提供了制作 Docker 镜像的方法,步骤很简单。本文主要是用于学习交流,并为大家展示如何制作并运行简单的的 Docker 镜像,Dockerfile 的编写大量参考了 PrestoDB 的文档。因为这里仅仅是测试,所以仅留了 tpch connecter,大家可以根据自己需求去修改。如果想及时了解Spark、Hadoop或者HBase

w397090770   7个月前 (11-19) 223℃ 0评论1喜欢

在 Presto Iceberg 数据源上使用 Alluxio 缓存

在 Presto Iceberg 数据源上使用 Alluxio 缓存
本文介绍了如何使用 Presto 通过 Alluxio 查询 Iceberg 表。由于这项功能目前处于试验阶段,此处提供的信息可能会发生变化,请及时参考官方文档了解最新功能。关于如何使用 Presto 读取 Iceberg 上的数据请参考这里。我们知道,在 Hive 数据源上,Presto 支持两种形式的 Alluxio 缓存:通过 Alluxio local cache 以及 Alluxio Cluster,截止到本文章

w397090770   7个月前 (11-18) 721℃ 0评论4喜欢

Presto 两种 JOIN 算法实现

Presto 两种 JOIN 算法实现
我们在 《Presto 中支持的七种 Join 类型》 这篇文章中介绍了 Presto 可用的 JOIN 操作的基础知识,以及如何在 SQL 查询中使用它们。有了这些知识,我们现在可以了解 Presto 的内部结构以及它如何在内部执行 JOIN 操作。本文将介绍 Presto 如何执行 JOIN 操作以及用于 JOIN 的算法。JOIN 的实现几乎所有的数据库引擎一次只 JOIN 两个表。即

w397090770   7个月前 (11-17) 264℃ 0评论0喜欢

使用 Shadow Cache 改进 Presto 架构决策在 Facebook 的实践

使用 Shadow Cache 改进 Presto 架构决策在 Facebook 的实践
本文是 2021-10-13 日周三下午13:30 举办的议题为《Improve Presto Architectural Decisions with Shadow Cache at Facebook》的分享,作者来自 Facebook 的 Ke Wang 和 普林斯顿CS系的 Zhenyu Song。Ke Wang is a software engineer at Facebook. She is currently developing solutions to help low latency queries in Presto at Facebook.Zhenyu Song is a Ph.D. student at Princeton CS Department. He works on using mach

w397090770   7个月前 (11-16) 112℃ 0评论0喜欢

Presto on Spark:通过 Spark 来扩展 Presto

Presto on Spark:通过 Spark 来扩展 Presto
概述Presto 最初设计是对数据仓库中的数据运行交互式查询,但现在它已经发展成为一个位于开放数据湖分析之上的统一 SQL 引擎,用于交互式和批处理工作负载,数据湖上的流行工作负载包括:报告和仪表盘:这包括为内部和外部开发人员提供自定义报告以获取业务洞察力,以及许多使用 Presto 进行交互式 A/B 测试分析的组织

w397090770   7个月前 (11-14) 565℃ 0评论1喜欢

Presto 基本概念:Driver, Split 和 Pipeline

Presto 基本概念:Driver, Split 和 Pipeline
在使用 Presto 时,我们经常会听说 Query、Stage、Task 等概念,很多人会搞不清楚这些概念,所以会导致一些误解,本文将简单地介绍一下这些基本的概念是指StatementStatement语句。其实就是指我们输入的SQL语句。Presto支持需要ANSI标准的SQL语句。这种语句由子句(Clause)、表达式(Expression)和断言(Predicate)组成。Presto为什么将语句(S

w397090770   8个月前 (11-01) 630℃ 0评论2喜欢