欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据
  • Trino Summit 2021 会议视频和 PPT 下载
  • 盘点2021年晋升为Apache TLP的大数据相关项目
  • 精选30个炫酷的数据可视化大屏(含源码),拿走就用!
  • PrestoCon Day 2021 会议 PPT 下载
  • Data + AI Summit 2021 全部超清 PPT 下载
  • Learning Spark, 2nd Edition 可以免费下载了
Trino Summit 2021 会议视频和 PPT 下载盘点2021年晋升为Apache TLP的大数据相关项目精选30个炫酷的数据可视化大屏(含源码),拿走就用!PrestoCon Day 2021 会议 PPT 下载Data + AI Summit 2021 全部超清 PPT 下载Learning Spark, 2nd Edition 可以免费下载了
Alluxio

Alluxio Local Cache 加速 Presto 查询在 Uber 的应用

Alluxio Local Cache 加速 Presto 查询在 Uber 的应用
背景如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据在 Uber,数据影响着每一个决定。Presto 是推动 Uber 各种数据分析的核心引擎之一。例如,运营团队在仪表盘等服务中大量使用 Presto;Uber Eats 和营销团队依靠这些查询的结果来决定价格。此外, Presto 还被用于 Uber 的合规部门、增长营销部

w397090770   5个月前 (11-14) 329℃ 0评论1喜欢

Presto

图文介绍 Presto + Velox 整合

图文介绍 Presto + Velox 整合
过去十年,存储的速度从 50MB/s(HDD)提升到 16GB/s(NvMe);网络的速度从 1Gbps 提升到 100Gbps;但是 CPU 的主频从 2010 年的 3GHz 到现在基本不变,CPU 主频是目前数据分析的重要瓶颈。为了解决这个问题,越来越多的向量化执行引擎被开发出来。比如数砖的 Photon 、ClickHouse、Apache Doris、Intel 的 Gazelle 以及 Facebook 的 Velox(参见 《Velox 介绍

w397090770   6个月前 (09-29) 738℃ 0评论2喜欢

Presto

Velox 介绍:一个开源的统一执行引擎

Velox 介绍:一个开源的统一执行引擎
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据Velox 利用了大量的运行时优化,例如过滤器和连接的重新排序(conjunct reordering)、数组和基于哈希的聚合和连接的 key 标准化、动态过滤器下推(dynamic filter pushdown)和自适应列预取(adaptive column prefetching)。考虑到从传入的数据批次中提取的

w397090770   7个月前 (09-05) 1034℃ 0评论2喜欢

Hadoop

大规模 Hadoop 升级在 Pinterest 的实践

大规模 Hadoop 升级在 Pinterest 的实践
Monarch 是 Pinterest 的批处理平台,由30多个 Hadoop YARN 集群组成,其中17k+节点完全建立在 AWS EC2 之上。2021年初,Monarch 还在使用五年前的 Hadoop 2.7.1。由于同步社区分支(特性和bug修复)的复杂性不断增加,我们决定是时候进行版本升级了。我们最终选择了Hadoop 2.10.0,这是当时 Hadoop 2 的最新版本。本文分享 Pinterest 将 Monarch 升级到 Ha

w397090770   8个月前 (08-12) 285℃ 0评论0喜欢

Presto

Presto 里面如何把 array 或 Map 里面的元素由行转成列

Presto 里面如何把 array 或 Map 里面的元素由行转成列
在 Spark 或 Hive 中,我们可以使用 LATERAL VIEW + EXPLODE 或 POSEXPLODE 将 array 或者 map 里面的数据由行转成列,这个操作在数据分析里面很常见。比如我们有以下表:[code lang="sql"]CREATE TABLE `default`.`iteblog_explode` ( `id` INT, `items` ARRAY<STRING>)[/code]表里面的数据如下:[code lang="sql"]spark-sql> SELECT * FROM iteblog_explode;1 ["iteblog.co

w397090770   8个月前 (08-08) 895℃ 0评论6喜欢

Data + AI Summit

Data + AI Summit 2022 PPT 下载

Data + AI Summit 2022 PPT 下载
Data + AI Summit 2022 于2022年06月27日至30日举行。本次会议是在旧金山进行,中国的小伙伴是可以在线收听的,一共为期四天,第一天是培训,后面几天才是正式会议。本次会议有超过200个议题,演讲嘉宾包括业界、研究和学术界的专家,本次会议主要分为六大块:数据分析, BI 以及可视化:了解最新的数据分析、BI 和可视化技术以及

w397090770   9个月前 (07-20) 677℃ 0评论1喜欢

Data + AI Summit

Data + AI Summit 2022 超清视频下载

Data + AI Summit 2022 超清视频下载
Data + AI Summit 2022 于2022年06月27日至30日举行。本次会议是在旧金山进行,中国的小伙伴是可以在线收听的,一共为期四天,第一天是培训,后面几天才是正式会议。本次会议有超过200个议题,演讲嘉宾包括业界、研究和学术界的专家,本次会议主要分为六大块:数据分析, BI 以及可视化:了解最新的数据分析、BI 和可视化技术以及

w397090770   9个月前 (07-10) 349℃ 0评论3喜欢

Presto

Tardigrade:Trino 解决 ETL 场景的方案

Tardigrade:Trino 解决 ETL 场景的方案
Presto 在 Facebook 的诞生最开始是为了填补当时 Facebook 内部实时查询和 ETL 处理之间的空白。Presto 的核心目标就是提供交互式查询,也就是我们常说的 Ad-Hoc Query,很多公司都使用它作为 OLAP 计算引擎。但是随着近年来业务场景越来越复杂,除了交互式查询场景,很多公司也需要批处理;但是 Presto 作为一个 MPP 计算引擎,将一个 MPP 体

w397090770   10个月前 (06-23) 915℃ 0评论2喜欢

Spark

历时一年 Apache Spark 3.3.0 正式发布,新特性详解

历时一年 Apache Spark 3.3.0 正式发布,新特性详解
Apache Spark 3.3.0 从2021年07月03日正式开发,历时近一年,终于在2022年06月16日正式发布,在 Databricks Runtime 11.0 也同步发布。这个版本一共解决了 1600 个 ISSUE,感谢 Apache Spark 社区为 Spark 3.3 版本做出的宝贵贡献。根据经验,这个版本应该不是稳定版,想在线上环境使用的小伙伴们可以再等等。如果想及时了解Spark、Hadoop或者HBase相关

w397090770   10个月前 (06-18) 1155℃ 0评论2喜欢

Apache Doris

官宣!Apache Doris 从 Apache 孵化器毕业,正式成为 Apache 顶级项目!

官宣!Apache Doris 从 Apache 孵化器毕业,正式成为 Apache 顶级项目!
全球最大的开源软件基金会 Apache 软件基金会(以下简称 Apache)于美国时间 2022 年 6 月 16 日 宣布,Apache Doris 成功从 Apache 孵化器毕业,正式成为 Apache 顶级项目(Top-Level Project,TLP)。 以下内容译自 Apache Doris 官网(https://doris.apache.org/ )。Apache Doris 是一个基于 MPP 的现代化、高性能、实时的分析型数据库,以极速易用的

zz~~   10个月前 (06-16) 440℃ 0评论2喜欢