标签：Spark 2.0

Spark Data Source API V1与V2简介

历史背景与演进动因V1 API的诞生与局限性Spark早期版本（1.x）的**V1 API**基于Hadoop生态构建，核心设计目标是兼容HDFS存储系统和传统MapReduce作业。其核心抽象`HadoopFsRelation`和`RDD`为文件型数据源提供了统一的访问接口，但存在以下问题：接口冗余：开发者需要同时实现`RelationProvider`、`FileFormat`、`HadoopFsRelation`等多个接口。优

w397090770 10个月前 (02-27) 454℃ 0评论1喜欢

Spark

Magnet: 基于推送的大规模数据处理 Shuffle 服务

本文翻译自：《Magnet: Push-based Shufﬂe Service for Large-scale Data Processing》摘要在过去的十年中，Apache Spark 已成为大规模数据处理的流行计算引擎。与其他基于 MapReduce 计算范式的计算引擎一样，随机Shuffle操作（即中间数据的全部对全部传输）在 Spark 中起着重要作用。在 LinkedIn，随着数据量和 Spark 部署规模的快速增长，随机Shuffle操作

w397090770 12个月前 (01-06) 305℃ 0评论0喜欢

Spark

告别 Shuffle！深入探索 Spark 的 Storage Partition Join（SPJ）技术

随着 Spark >= 3.3（在 3.4 中更加成熟）中引入的存储分区连接（Storage Partition Join，SPJ）优化技术，您可以在不触发 Shuffle 的情况下对分区的数据源 V2 表执行连接操作（当然，需要满足一些条件）。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据Shuffle 是昂贵的，尤其是在 Spark 中的连

w397090770 1年前 (2025-01-03) 682℃ 0评论0喜欢

Spark

Spark Join Hints 简介及使用

当前 Spark 计算引擎能够利用一些统计信息选择合适的 Join 策略（关于 Spark 支持的 Join 策略可以参见每个 Spark 工程师都应该知道的五种 Join 策略），但是由于各种原因，比如统计信息缺失、统计信息不准确等原因，Spark 给我们选择的 Join 策略不是正确的，这时候我们就可以人为“干涉”，Spark 从 2.2.0 版本开始（参见SPARK-16475），支

w397090770 5年前 (2020-09-15) 3756℃ 0评论3喜欢

Spark

Learning Spark, 2nd Edition 可以免费下载了

《Learning Spark, 2nd Edition》这本书是由 O'Reilly Media 出版社于2020年7月出版的，作者包括 Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop图书介绍第二版已更新包含了 Spark 3.0 的一些东西，本书向数据工程师和数据科学家展示了 Spark 中结构化和统一

w397090770 5年前 (2020-09-03) 3133℃ 0评论10喜欢

Spark

Spark SQL 物化视图原理与实践

物化视图作为一种预计算的优化方式，广泛应用于传统数据库中，如Oracle，MSSQL Server等。随着大数据技术的普及，各类数仓及查询引擎在业务中扮演着越来越重要的数据分析角色，而物化视图作为数据查询的加速器，将极大增强用户在数据分析工作中的使用体验。本文将基于 SparkSQL（2.4.4） + Hive （2.3.6），介绍物化视图在SparkSQL中

w397090770 6年前 (2020-05-14) 2431℃ 0评论4喜欢

Hive

图文介绍 SQL 的三种查询计划处理模型

我已经在之前的《一条 SQL 在 Apache Spark 之旅（上）》、《一条 SQL 在 Apache Spark 之旅（中）》以及《一条 SQL 在 Apache Spark 之旅（下）》这三篇文章中介绍了 SQL 从用户提交到最后执行都经历了哪些过程，感兴趣的同学可以去这三篇文章看看。这篇文章中我们主要来介绍 SQL 查询计划（Query Plan）常见的处理模型（processing model）。数

w397090770 6年前 (2020-05-13) 1876℃ 0评论6喜欢

Spark

Apache Spark 2.4 内置图像数据源介绍

随着图像分类（image classification）和对象检测（object detection）的深度学习框架的最新进展，开发者对 Apache Spark 中标准图像处理的需求变得越来越大。图像处理和预处理有其特定的挑战 - 比如，图像有不同的格式（例如，jpeg，png等），大小和颜色，并且没有简单的方法来测试正确性。图像数据源通过给我们提供可以编码的标准表

w397090770 7年前 (2018-12-13) 2581℃ 0评论4喜欢

Spark

Apache Spark 2.4 内置的 Avro 数据源介绍

Apache Avro 是一种流行的数据序列化格式。它广泛用于 Apache Spark 和 Apache Hadoop 生态系统，尤其适用于基于 Kafka 的数据管道。从 Apache Spark 2.4 版本开始，Spark 为读取和写入 Avro 数据提供内置支持。新的内置 spark-avro 模块最初来自 Databricks 的开源项目Avro Data Source for Apache Spark。除此之外，它还提供以下功能：新函数 from_avro() 和 to_avro()

w397090770 7年前 (2018-12-11) 3446℃ 0评论9喜欢

Spark

Apache Spark 2.4 新增内置函数和高阶函数使用介绍

Apache Spark 2.4 新增了24个内置函数和5个高阶函数，本文将对这29个函数的使用进行介绍。关于 Apache Spark 2.4 的新特性，可以参见《Apache Spark 2.4 正式发布，重要功能详细介绍》。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop针对数组类型的函数array_distinctarray_distinct(array<T>): array<T

w397090770 7年前 (2018-11-25) 7876℃ 0评论18喜欢

1
2
3
4
下一页
共 4 页