标签：Spark

Portable UDF：Facebook 工程师为了解决不同计算引擎 UDF 统一的项目

本文来自 Data + AI Summit 2021 会议中 Facebook 的Rongrong Zhong（Facebook Presto 团队的 TL）和 Tejas Patil（Facebook Spark 团队的 TL）工程师带来的名为《Portable UDFs : Write Once, Run Anywhere》的分享。虽然大多数查询引擎都提供了丰富的内置函数，但它并不能满足用户的所有需求。在这种情况下，用户定义函数（UDF）允许用户表达他们的业

w397090770 4年前 (2021-12-17) 570℃ 0评论2喜欢

Spark

What's new in Spark 3.2.0

本文来自 Kyligence 主办的 Data & AI Meetup（第二期），会议时间为 11月16日。本期会议特别邀请了 Spark 社区大佬范文臣带来 Spark 3.2.0 新特性的首发解读。范文臣，Databricks 开源组技术主管，Apache Spark PMC member，Spark 社区最活跃的贡献者之一，目前主要负责 Spark Core/SQL 的设计开发和开源社区管理。Spark 作为目前大数据领域使用最普及的

w397090770 4年前 (2021-11-30) 736℃ 0评论0喜欢

Presto

Presto on Spark：通过 Spark 来扩展 Presto

概述Presto 最初设计是对数据仓库中的数据运行交互式查询，但现在它已经发展成为一个位于开放数据湖分析之上的统一 SQL 引擎，用于交互式和批处理工作负载，数据湖上的流行工作负载包括：报告和仪表盘：这包括为内部和外部开发人员提供自定义报告以获取业务洞察力，以及许多使用 Presto 进行交互式 A/B 测试分析的组织

w397090770 4年前 (2021-11-14) 1507℃ 0评论1喜欢

Alluxio

使用 Spark+Alluxio 加速数据应用的最佳实践

本文是 2021-10-13 日周三下午13:30 举办的议题为《Best Practice in Accelerating Data Applications with Spark+Alluxio》的分享，作者来自 Alluxio 的 David Zhu。本次演讲将分享 Alluxio 和 Spark 集成解决方案的设计和用例，以及在设计和实现 Alluxio分布式系统时的最佳实践以及不要做什么。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信

w397090770 4年前 (2021-10-28) 622℃ 0评论1喜欢

Spark

Apache Spark 3.2 内置支持会话窗口

Apache Spark™ Structured Streaming 允许用户在事件时间的窗口上进行聚合。在 Apache Spark 3.2™ 之前，Spark 支持滚动窗口（tumbling windows）和滑动窗口（ sliding windows）。在已经发布的 Apache Spark 3.2 中，社区添加了“会话窗口（session windows）”作为新支持的窗口类型，它适用于流查询和批处理查询什么是会话窗口如果想及时了解Spark、Had

w397090770 4年前 (2021-10-21) 964℃ 0评论0喜欢

Spark

Apache Spark 3.2 正式发布，新特性详解

经过七轮投票， Apache Spark™ 3.2 终于在昨天正式发布了。Apache Spark™ 3.2 已经是 Databricks Runtime 10.0 的一部分，感兴趣的同学可以去试用一下。按照惯例，这个版本应该不是稳定版，所以建议大家不要在生产环境中使用。Spark 的每月 Maven 下载数量迅速增长到 2000 万，与去年同期相比，Spark 的月下载量翻了一番。Spark 已成为在单节

w397090770 4年前 (2021-10-20) 1511℃ 0评论3喜欢

Hive

Hive SQL迁移 Spark SQL 在网易传媒的实践

引言：把基于mapreduce的离线hiveSQL任务迁移到sparkSQL，不但能大幅缩短任务运行时间，还能节省不少计算资源。最近我们也把组内2000左右的hivesql任务迁移到了sparkSQL，这里做个简单的记录和分享，本文偏重于具体条件下的方案选择。迁移背景 SQL任务运行慢Hive SQL处理任务虽然较为稳定，但是其时效性已经达瓶颈，无法再进一

w397090770 4年前 (2021-10-19) 986℃ 0评论2喜欢

Spark

即将发布的 Apache Spark 3.2 将内置 Pandas API

在即将发布的 Apache Spark™ 3.2 版本中 pandas API 将会成为其中的一部分。Pandas 是一个强大、灵活的库，并已迅速发展成为标准的数据科学库之一。现在，pandas 的用户将能够在他们现有的 Spark 集群上利用 pandas API。几年前，我们启动了 Koalas 这个开源项目，它在 Spark 之上实现了 Pandas DataFrame API，并被数据科学家广泛采用。最近，Koala

w397090770 4年前 (2021-10-13) 923℃ 0评论3喜欢

Spark

Magnet：LinkedIn 开源的可扩展、高性能的 Apache Spark shuffle 服务

在 LinkedIn，我们非常依赖离线数据分析来进行数据驱动的决策。多年来，Apache Spark 已经成为 LinkedIn 的主要计算引擎，以满足这些数据需求。凭借其独特的功能，Spark 为 LinkedIn 的许多关键业务提供支持，包括数据仓库、数据科学、AI/ML、A/B 测试和指标报告。需要大规模数据分析的用例数量也在快速增长。从 2017 年到现在，LinkedIn 的 S

w397090770 4年前 (2021-09-08) 1148℃ 0评论4喜欢

Presto

Presto 动态过滤（dynamic filtering）原理与应用

早在2005年，Oracle 数据库就支持比较丰富的 dynamic filtering 功能，而 Spark 和 Presto 在最近版本才开始支持这个功能。本文将介绍 Presto 动态过滤的原理以及具体使用。Apache Spark 的动态分区裁减Apache Spark 3.0 给我们带来了许多的新特性用于加速查询性能，其中一个就是动态分区裁减（Dynamic Partition Pruning，DPP），所谓的动态分区裁剪就

w397090770 4年前 (2021-06-01) 1585℃ 0评论2喜欢

上一页
1
2
3
4
5
6
7
...
44
下一页
共 44 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

标签：Spark

Portable UDF：Facebook 工程师为了解决不同计算引擎 UDF 统一的项目

What's new in Spark 3.2.0

Presto on Spark：通过 Spark 来扩展 Presto

使用 Spark+Alluxio 加速数据应用的最佳实践

Apache Spark 3.2 内置支持会话窗口

Apache Spark 3.2 正式发布，新特性详解

Hive SQL迁移 Spark SQL 在网易传媒的实践

即将发布的 Apache Spark 3.2 将内置 Pandas API

Magnet：LinkedIn 开源的可扩展、高性能的 Apache Spark shuffle 服务

Presto 动态过滤（dynamic filtering）原理与应用