标签：Spark 2.4

Apache Spark 自定义优化规则：Custom Strategy

这篇文章本来19年5月份就想写的，最终拖到今天才整理出来😂。Spark 内置给我们带来了非常丰富的各种优化，这些优化基本可以满足我们日常的需求。但是我们知道，现实场景中会有各种各样的需求，总有一些场景在 Spark 得到的执行计划不是最优的，社区的大佬肯定也知道这个问题，所以从 Spark 1.3.0 开始，Spark 为我们提供

w397090770 4年前 (2020-08-05) 1111℃ 2评论3喜欢

Spark

Apache Spark 动态分区 OverWrite 问题

如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop假设我们有以下表：[code lang="scala"]scala> spark.sql("""CREATE TABLE iteblog_test (name STRING, id int) using orc PARTITIONED BY (id)""").show(100)[/code]我们往里面插入一些数据：[code lang="sql"]scala> spark.sql("insert into table iteblog_test select

w397090770 4年前 (2020-08-03) 3297℃ 0评论4喜欢

Spark

Spark SQL 查询中 Coalesce 和 Repartition 暗示（Hint）

如果你使用 Spark RDD 或者 DataFrame 编写程序，我们可以通过 coalesce 或 repartition 来修改程序的并行度：[code lang="scala"]val data = sc.newAPIHadoopFile(xxx).coalesce(2).map(xxxx)或val data = sc.newAPIHadoopFile(xxx).repartition(2).map(xxxx)val df = spark.read.json("/user/iteblog/json").repartition(4).map(xxxx)val df = spark.read.json("/user/iteblog/json").coalesce(4).map(x

w397090770 6年前 (2019-01-24) 8181℃ 0评论12喜欢

Spark

Apache Spark 2.4 内置图像数据源介绍

随着图像分类（image classification）和对象检测（object detection）的深度学习框架的最新进展，开发者对 Apache Spark 中标准图像处理的需求变得越来越大。图像处理和预处理有其特定的挑战 - 比如，图像有不同的格式（例如，jpeg，png等），大小和颜色，并且没有简单的方法来测试正确性。图像数据源通过给我们提供可以编码的标准表

w397090770 6年前 (2018-12-13) 2457℃ 0评论4喜欢

Spark

Apache Spark 2.4 内置的 Avro 数据源介绍

Apache Avro 是一种流行的数据序列化格式。它广泛用于 Apache Spark 和 Apache Hadoop 生态系统，尤其适用于基于 Kafka 的数据管道。从 Apache Spark 2.4 版本开始，Spark 为读取和写入 Avro 数据提供内置支持。新的内置 spark-avro 模块最初来自 Databricks 的开源项目Avro Data Source for Apache Spark。除此之外，它还提供以下功能：新函数 from_avro() 和 to_avro()

w397090770 6年前 (2018-12-11) 3129℃ 0评论9喜欢

Spark

Apache Spark 2.4 新增内置函数和高阶函数使用介绍

Apache Spark 2.4 新增了24个内置函数和5个高阶函数，本文将对这29个函数的使用进行介绍。关于 Apache Spark 2.4 的新特性，可以参见《Apache Spark 2.4 正式发布，重要功能详细介绍》。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop针对数组类型的函数array_distinctarray_distinct(array<T>): array<T

w397090770 6年前 (2018-11-25) 7475℃ 0评论18喜欢

Spark

Apache Spark 2.4 中解决复杂数据类型的内置函数和高阶函数介绍

Apache Spark 2.4 是在11月08日正式发布的，其带来了很多新的特性具体可以参见这里，本文主要介绍这次为复杂数据类型新引入的内置函数和高阶函数。本次 Spark 发布共引入了29个新的内置函数来处理复杂类型（例如，数组类型），包括高阶函数。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop

w397090770 6年前 (2018-11-21) 2481℃ 0评论2喜欢

Spark

Apache Spark 2.4 正式发布，重要功能详细介绍

美国时间 2018年11月08日正式发布了。一如既往，为了继续实现 Spark 更快，更轻松，更智能的目标，Spark 2.4 带来了许多新功能，如下：添加一种支持屏障模式（barrier mode）的调度器，以便与基于MPI的程序更好地集成，例如，分布式深度学习框架；引入了许多内置的高阶函数，以便更容易处理复杂的数据类型（比如数组和 map）；

w397090770 6年前 (2018-11-10) 4525℃ 0评论6喜欢

Spark

Apache Spark 2.4.0 正式发布

Apache Spark 2.4 与昨天正式发布，Apache Spark 2.4 版本是 2.x 系列的第五个版本。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoopApache Spark 2.4 为我们带来了众多的主要功能和增强功能，主要如下：新的调度模型（Barrier Scheduling），使用户能够将分布式深度学习训练恰当地嵌入到 Spark 的 stage 中

w397090770 6年前 (2018-11-09) 3353℃ 0评论1喜欢

Spark

即将发布的 Apache Spark 2.4 都有哪些新功能

本文来自于2018年09月19日在 Adobe Systems Inc 举行的 Apache Spark Meetup。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop即将发布的 Apache Spark 2.4 版本是 2.x 系列的第五个版本。本文对 Apache Spark 2.4 的主要功能和增强功能进行了概述。新的调度模型（Barrier Scheduling），使用户能够将分布式深度学

w397090770 6年前 (2018-09-20) 3297℃ 0评论8喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

标签：Spark 2.4

Apache Spark 自定义优化规则：Custom Strategy

Apache Spark 动态分区 OverWrite 问题

Spark SQL 查询中 Coalesce 和 Repartition 暗示（Hint）

Apache Spark 2.4 内置图像数据源介绍

Apache Spark 2.4 内置的 Avro 数据源介绍

Apache Spark 2.4 新增内置函数和高阶函数使用介绍

Apache Spark 2.4 中解决复杂数据类型的内置函数和高阶函数介绍

Apache Spark 2.4 正式发布，重要功能详细介绍

Apache Spark 2.4.0 正式发布

即将发布的 Apache Spark 2.4 都有哪些新功能