Spark - 过往记忆过往记忆

从批处理到流式处理：加速 Uber 数据湖中的数据新鲜度

引言（Introduction）在 Uber，数据湖是支撑全公司分析与机器学习的基础平台。过去，数据湖的摄取主要依赖批处理作业，数据新鲜度通常以小时来衡量。随着业务需求逐步向近实时洞察演进，我们重新架构了数据摄取体系，使其运行在 Apache Flink® 之上，从而实现了更新鲜的数据、更低的成本，以及在 PB 级规模下的可扩展运营能力

w397090770 24小时前 1℃ 0评论0喜欢

历史背景与演进动因V1 API的诞生与局限性Spark早期版本（1.x）的**V1 API**基于Hadoop生态构建，核心设计目标是兼容HDFS存储系统和传统MapReduce作业。其核心抽象`HadoopFsRelation`和`RDD`为文件型数据源提供了统一的访问接口，但存在以下问题：接口冗余：开发者需要同时实现`RelationProvider`、`FileFormat`、`HadoopFsRelation`等多个接口。优

w397090770 10个月前 (02-27) 450℃ 0评论1喜欢

Magnet: 基于推送的大规模数据处理 Shuffle 服务

本文翻译自：《Magnet: Push-based Shufﬂe Service for Large-scale Data Processing》摘要在过去的十年中，Apache Spark 已成为大规模数据处理的流行计算引擎。与其他基于 MapReduce 计算范式的计算引擎一样，随机Shuffle操作（即中间数据的全部对全部传输）在 Spark 中起着重要作用。在 LinkedIn，随着数据量和 Spark 部署规模的快速增长，随机Shuffle操作

w397090770 12个月前 (01-06) 301℃ 0评论0喜欢

告别 Shuffle！深入探索 Spark 的 Storage Partition Join（SPJ）技术

随着 Spark >= 3.3（在 3.4 中更加成熟）中引入的存储分区连接（Storage Partition Join，SPJ）优化技术，您可以在不触发 Shuffle 的情况下对分区的数据源 V2 表执行连接操作（当然，需要满足一些条件）。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据Shuffle 是昂贵的，尤其是在 Spark 中的连

w397090770 12个月前 (01-03) 679℃ 0评论0喜欢

图文介绍 Presto + Velox 整合

过去十年，存储的速度从 50MB/s（HDD）提升到 16GB/s（NvMe）；网络的速度从 1Gbps 提升到 100Gbps；但是 CPU 的主频从 2010 年的 3GHz 到现在基本不变，CPU 主频是目前数据分析的重要瓶颈。为了解决这个问题，越来越多的向量化执行引擎被开发出来。比如数砖的 Photon 、ClickHouse、Apache Doris、Intel 的 Gazelle 以及 Facebook 的 Velox（参见《Velox 介绍

w397090770 3年前 (2022-09-29) 2474℃ 0评论3喜欢

Velox 介绍：一个开源的统一执行引擎

w397090770 3年前 (2022-09-05) 2794℃ 0评论3喜欢

Presto 里面如何把 array 或 Map 里面的元素由行转成列

在 Spark 或 Hive 中，我们可以使用 LATERAL VIEW + EXPLODE 或 POSEXPLODE 将 array 或者 map 里面的数据由行转成列，这个操作在数据分析里面很常见。比如我们有以下表：[code lang="sql"]CREATE TABLE `default`.`iteblog_explode` ( `id` INT, `items` ARRAY<STRING>)[/code]表里面的数据如下：[code lang="sql"]spark-sql> SELECT * FROM iteblog_explode;1 ["iteblog.co

w397090770 3年前 (2022-08-08) 2253℃ 0评论7喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

分类：Spark

从批处理到流式处理：加速 Uber 数据湖中的数据新鲜度

Spark Data Source API V1与V2简介

Magnet: 基于推送的大规模数据处理 Shuffle 服务

告别 Shuffle！深入探索 Spark 的 Storage Partition Join（SPJ）技术

图文介绍 Presto + Velox 整合

Velox 介绍：一个开源的统一执行引擎

Presto 里面如何把 array 或 Map 里面的元素由行转成列

Data + AI Summit 2022 PPT 下载

Data + AI Summit 2022 超清视频下载

历时一年 Apache Spark 3.3.0 正式发布，新特性详解