分类：Spark 2.0

Magnet: 基于推送的大规模数据处理 Shuffle 服务

本文翻译自：《Magnet: Push-based Shufﬂe Service for Large-scale Data Processing》摘要在过去的十年中，Apache Spark 已成为大规模数据处理的流行计算引擎。与其他基于 MapReduce 计算范式的计算引擎一样，随机Shuffle操作（即中间数据的全部对全部传输）在 Spark 中起着重要作用。在 LinkedIn，随着数据量和 Spark 部署规模的快速增长，随机Shuffle操作正

w397090770 3周前 (01-06) 25℃ 0评论0喜欢

Spark Join Hints 简介及使用

当前 Spark 计算引擎能够利用一些统计信息选择合适的 Join 策略（关于 Spark 支持的 Join 策略可以参见每个 Spark 工程师都应该知道的五种 Join 策略），但是由于各种原因，比如统计信息缺失、统计信息不准确等原因，Spark 给我们选择的 Join 策略不是正确的，这时候我们就可以人为“干涉”，Spark 从 2.2.0 版本开始（参见SPARK-16475），支

w397090770 4年前 (2020-09-15) 3542℃ 0评论3喜欢

Learning Spark, 2nd Edition 可以免费下载了

《Learning Spark, 2nd Edition》这本书是由 O'Reilly Media 出版社于2020年7月出版的，作者包括 Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop图书介绍第二版已更新包含了 Spark 3.0 的一些东西，本书向数据工程师和数据科学家展示了 Spark 中结构化和统一

w397090770 4年前 (2020-09-03) 2764℃ 0评论10喜欢

Spark SQL 物化视图原理与实践

物化视图作为一种预计算的优化方式，广泛应用于传统数据库中，如Oracle，MSSQL Server等。随着大数据技术的普及，各类数仓及查询引擎在业务中扮演着越来越重要的数据分析角色，而物化视图作为数据查询的加速器，将极大增强用户在数据分析工作中的使用体验。本文将基于 SparkSQL（2.4.4） + Hive （2.3.6），介绍物化视图在SparkSQL中

w397090770 5年前 (2020-05-14) 2286℃ 0评论4喜欢

图文介绍 SQL 的三种查询计划处理模型

我已经在之前的《一条 SQL 在 Apache Spark 之旅（上）》、《一条 SQL 在 Apache Spark 之旅（中）》以及《一条 SQL 在 Apache Spark 之旅（下）》这三篇文章中介绍了 SQL 从用户提交到最后执行都经历了哪些过程，感兴趣的同学可以去这三篇文章看看。这篇文章中我们主要来介绍 SQL 查询计划（Query Plan）常见的处理模型（processing model）。数

w397090770 5年前 (2020-05-13) 1782℃ 0评论6喜欢

Apache Spark 2.4 内置图像数据源介绍

随着图像分类（image classification）和对象检测（object detection）的深度学习框架的最新进展，开发者对 Apache Spark 中标准图像处理的需求变得越来越大。图像处理和预处理有其特定的挑战 - 比如，图像有不同的格式（例如，jpeg，png等），大小和颜色，并且没有简单的方法来测试正确性。图像数据源通过给我们提供可以编码的标准表

w397090770 6年前 (2018-12-13) 2477℃ 0评论4喜欢

Apache Spark 2.4 内置的 Avro 数据源介绍

Apache Avro 是一种流行的数据序列化格式。它广泛用于 Apache Spark 和 Apache Hadoop 生态系统，尤其适用于基于 Kafka 的数据管道。从 Apache Spark 2.4 版本开始，Spark 为读取和写入 Avro 数据提供内置支持。新的内置 spark-avro 模块最初来自 Databricks 的开源项目Avro Data Source for Apache Spark。除此之外，它还提供以下功能：新函数 from_avro() 和 to_avro()

w397090770 6年前 (2018-12-11) 3182℃ 0评论9喜欢

1
2
3
4
下一页
共 4 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据