Spark – 过往记忆

图文介绍 Presto + Velox 整合

过去十年，存储的速度从 50MB/s（HDD）提升到 16GB/s（NvMe）；网络的速度从 1Gbps 提升到 100Gbps；但是 CPU 的主频从 2010 年的 3GHz 到现在基本不变，CPU 主频是目前数据分析的重要瓶颈。为了解决这个问题，越来越多的向量化执行引擎被开发出来。比如数砖的 Photon 、ClickHouse、Apache Doris、Intel 的 Gazelle 以及 Facebook 的 Velox（参见《Velox 介绍

w397090770 2年前 (2022-09-29) 1618℃ 0评论2喜欢

Velox 介绍：一个开源的统一执行引擎

如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据Velox 利用了大量的运行时优化，例如过滤器和连接的重新排序（conjunct reordering）、数组和基于哈希的聚合和连接的 key 标准化、动态过滤器下推（dynamic filter pushdown）和自适应列预取（adaptive column prefetching）。考虑到从传入的数据批次中提取的

w397090770 2年前 (2022-09-05) 1804℃ 0评论2喜欢

Presto 里面如何把 array 或 Map 里面的元素由行转成列

在 Spark 或 Hive 中，我们可以使用 LATERAL VIEW + EXPLODE 或 POSEXPLODE 将 array 或者 map 里面的数据由行转成列，这个操作在数据分析里面很常见。比如我们有以下表：[code lang="sql"]CREATE TABLE `default`.`iteblog_explode` ( `id` INT, `items` ARRAY<STRING>)[/code]表里面的数据如下：[code lang="sql"]spark-sql> SELECT * FROM iteblog_explode;1 ["iteblog.co

w397090770 2年前 (2022-08-08) 1615℃ 0评论6喜欢

Data + AI Summit 2022 PPT 下载

Data + AI Summit 2022 于2022年06月27日至30日举行。本次会议是在旧金山进行，中国的小伙伴是可以在线收听的，一共为期四天，第一天是培训，后面几天才是正式会议。本次会议有超过200个议题，演讲嘉宾包括业界、研究和学术界的专家，本次会议主要分为六大块：数据分析, BI 以及可视化：了解最新的数据分析、BI 和可视化技术以及

w397090770 2年前 (2022-07-20) 1135℃ 0评论1喜欢

Data + AI Summit 2022 超清视频下载

Data + AI Summit 2022 于2022年06月27日至30日举行。本次会议是在旧金山进行，中国的小伙伴是可以在线收听的，一共为期四天，第一天是培训，后面几天才是正式会议。本次会议有超过200个议题，演讲嘉宾包括业界、研究和学术界的专家，本次会议主要分为六大块：数据分析, BI 以及可视化：了解最新的数据分析、BI 和可视化技术以及

w397090770 2年前 (2022-07-10) 520℃ 0评论3喜欢

历时一年 Apache Spark 3.3.0 正式发布，新特性详解

Apache Spark 3.3.0 从2021年07月03日正式开发，历时近一年，终于在2022年06月16日正式发布，在 Databricks Runtime 11.0 也同步发布。这个版本一共解决了 1600 个 ISSUE，感谢 Apache Spark 社区为 Spark 3.3 版本做出的宝贵贡献。根据经验，这个版本应该不是稳定版，想在线上环境使用的小伙伴们可以再等等。如果想及时了解Spark、Hadoop或者HBase相关

w397090770 2年前 (2022-06-18) 1710℃ 0评论2喜欢

Spark Structured Streaming 2021年最新进展的总结

本文我们将花点时间来回顾一下 Databricks 和 Apache Spark™ 在流数据处理方面所取得的巨大进步！2021年，工程团队和开源贡献者在以下三个目标取得了一些进展：降低延迟并改进有状态流处理；提高 Databricks 和 Spark Structured Streaming 工作负载的可观测性；改进资源分配和可伸缩性。下面我们来简单地看下这些目标。目标一：

w397090770 2年前 (2022-02-23) 759℃ 0评论3喜欢

Apache® Gobblin™：开源分布式大数据集成框架

Apache Gobblin 是一个用于流数据和批处理数据生态系统的分布式大数据集成框架。可以简化大数据集成里面的常见问题，比如数据摄取、复制、组织以及生命周期管理等。该项目2014年起源于 LinkedIn，2015年开源，2017年2月进入 Apache 孵化器，2021年02月16日正式毕业成为 Apache 顶级项目。如果想及时了解Spark、Hadoop或者HBase相关的文章，

w397090770 2年前 (2022-01-01) 1066℃ 0评论3喜欢

精选30个炫酷的数据可视化大屏(含源码)，拿走就用！

今天给大家分享30款开源的可视化大屏(含源码)。下载到本地后，直接运行文件夹中的index.html，即可看到大屏。01 数据可视化页面设计有动画效果，显得高大上！主要图表：柱状图、水球图、折线图等。02 数据可视化演示系统不仅有动画效果，还有科技感光效。主要图表：柱状图、折线图、饼图、地图等

zz~~ 2年前 (2021-12-23) 3424℃ 0评论3喜欢

Portable UDF：Facebook 工程师为了解决不同计算引擎 UDF 统一的项目

本文来自 Data + AI Summit 2021 会议中 Facebook 的Rongrong Zhong（Facebook Presto 团队的 TL）和 Tejas Patil（Facebook Spark 团队的 TL）工程师带来的名为《Portable UDFs : Write Once, Run Anywhere》的分享。虽然大多数查询引擎都提供了丰富的内置函数，但它并不能满足用户的所有需求。在这种情况下，用户定义函数（UDF）允许用户表达他们的业

w397090770 2年前 (2021-12-17) 428℃ 0评论2喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

分类：Spark