欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据
  • 这些未在 Spark SQL 文档中说明的优化措施,你知道吗?
  • Apache Iceberg 小文件合并原理及实践
  • Apache Iceberg 代码调试技巧
  • Learning Spark, 2nd Edition 可以免费下载了
  • Spark Summit North America 202006 高清 PPT 下载
  • 基于 Apache Iceberg 打造 T+0 实时数仓
  • Apache iceberg:Netflix 数据仓库的基石
  • Apache Spark Delta Lake 事务日志实现源码分析
  • Spark+AI Summit 2019 PPT 下载[共124个]
  • Apache Spark 社区期待的 Delta Lake 开源了
  • Uber 向 Apache 软件基金会提交开源大数据存储库 Hudi
这些未在 Spark SQL 文档中说明的优化措施,你知道吗?Apache Iceberg 小文件合并原理及实践Apache Iceberg 代码调试技巧Learning Spark, 2nd Edition 可以免费下载了Spark Summit North America 202006 高清 PPT 下载基于 Apache Iceberg 打造 T+0 实时数仓Apache iceberg:Netflix 数据仓库的基石Apache Spark Delta Lake 事务日志实现源码分析Spark+AI Summit 2019 PPT 下载[共124个]Apache Spark 社区期待的 Delta Lake 开源了Uber 向 Apache 软件基金会提交开源大数据存储库 Hudi
Spark

图文理解 Spark 3.0 的动态分区裁剪优化

图文理解 Spark 3.0 的动态分区裁剪优化
Spark 3.0 为我们带来了许多令人期待的特性。动态分区裁剪(dynamic partition pruning)就是其中之一。本文将通过图文的形式来带大家理解什么是动态分区裁剪。Spark 中的静态分区裁剪在介绍动态分区裁剪之前,有必要对 Spark 中的静态分区裁剪进行介绍。在标准数据库术语中,裁剪意味着优化器将避免读取不包含我们正在查找的数

w397090770   1周前 (01-06) 156℃ 0评论1喜欢

Delta Lake

Delta Lake 提供纯 Scala\Java\Python 操作 API,和 Flink 整合更加容易

Delta Lake 提供纯 Scala\Java\Python 操作 API,和 Flink 整合更加容易
最近,Delta Lake 发布了一项新功能,也就是支持直接使用 Scala、Java 或者 Python 来查询 Delta Lake 里面的数据,这个是不需要通过 Spark 引擎来实现的。Scala 和 Java 读取 Delta Lake 里面的数据是通过 Delta Standalone Reader 实现的;而 Python 则是通过 Delta Rust API 实现的。Delta Lake 是一个开源存储层,为数据湖带来了可靠性。Delta Lake 提供 ACID 事务

w397090770   2周前 (01-05) 98℃ 0评论0喜欢

Apache Iceberg

盘点2020年晋升为Apache TLP的大数据相关项目

盘点2020年晋升为Apache TLP的大数据相关项目
在过去一年有很多 Apache 孵化项目顺利毕业成顶级项目(Top-Level Project ,简称 TLP ),在这里我将给大家盘点 2020 年晋升为 Apache TLP 的大数据相关项目。在2020年一共有四个大数据相关项目顺利毕业成顶级项目,主要是 Apache® ShardingSphere™、Apache® Hudi™、Apache® Iceberg™ 以及 Apache® IoTDB™,这里以毕业的时间顺序依次介绍。关于过

w397090770   2周前 (01-03) 202℃ 0评论1喜欢

Presto

PrestoSQL 项目更名为 Trino,彻底和 PrestoDB 分家

PrestoSQL 项目更名为 Trino,彻底和 PrestoDB 分家
2020年12月27日,Martin Traverso、 Dain Sundstrom 以及 David Phillips 大佬们宣布将 PrestoSQL 项目的名字更名为 Trino。新的项目地址为 https://trino.io/。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop正如上图的描述,这个仅仅是更改名字,之前的社区和软件都还在那的,这个项目还是由 Presto 的创始人和创

w397090770   3周前 (12-28) 323℃ 0评论1喜欢

Kafka

Apache Kafka 2.7.0 稳定版发布,有哪些值得关心的变化?

Apache Kafka 2.7.0 稳定版发布,有哪些值得关心的变化?
Apache Kafka 2.7.0 于2020年12月21日正式发布,这个版本是目前 Kafka 最新稳定版本,大家可以根据需要自行决定是否需要升级到次版本,关于各个版本升级到 Apache Kafka 2.7.0 请参见《Upgrading to 2.7.0 from any version 0.8.x through 2.6.x》。在这个版本中,社区仍然在推进从 Kafka 移除对 ZooKeeper 的依赖,比如这个版本在 KIP-497 里面添加了可以修改 IS

w397090770   3周前 (12-27) 160℃ 0评论1喜欢

Apache Doris

Apache Doris 在京东搜索实时 OLAP 中的应用实践

Apache Doris 在京东搜索实时 OLAP 中的应用实践
前言本文讨论了京东搜索在实时流量数据分析方面,利用Apache Flink和Apache Doris进行的探索和实践。流式计算在近些年的热度与日俱增,从Google Dataflow论文的发表,到Apache Flink计算引擎逐渐站到舞台中央,再到Apache Druid等实时分析型数据库的广泛应用,流式计算引擎百花齐放。但不同的业务场景,面临着不同的问题,没有哪一种引

w397090770   3周前 (12-25) 151℃ 0评论1喜欢

Presto

Presto 在车好多的实践

Presto 在车好多的实践
本文作者:车好多大数据 OLAP 团队-王培,由车好多大数据 OLAP 团队相关同事投稿。Presto 简介简介Presto 最初是由 Facebook 开发的一个分布式 SQL 执行引擎, 它被设计为用来专门进行高速、实时的数据分析,以弥补 Hive 在速度和对接多种数据源上的短板。发展历史如下:2012年秋季,Facebook启动Presto项目2013年冬季,Presto开源

w397090770   4周前 (12-21) 185℃ 0评论2喜欢

Presto

Presto 在有赞的实践之路

Presto 在有赞的实践之路
一、前言本文主要介绍了 Presto 的简单原理,以及 Presto 在有赞的实践之路。二、Presto 介绍Presto 是由 Facebook 开发的开源大数据分布式高性能 SQL 查询引擎。起初,Facebook 使用 Hive 来进行交互式查询分析,但 Hive 是基于 MapReduce 为批处理而设计的,延时很高,满足不了用户对于交互式查询想要快速出结果的场景。为了解决 Hive

w397090770   4周前 (12-21) 144℃ 0评论1喜欢

Kafka

Twitter 如何将 Kafka 当做一个存储系统

Twitter 如何将 Kafka 当做一个存储系统
前言当开发人员通过我们提供的 API 使用公开的 Twitter 数据时,他们需要可靠性、高效的性能以及稳定性。因此,在前一段时间,我们为 Account Activity API 启动了 Account Activity Replay API ,让开发人员将稳定性融入到他们的系统中。Account Activity Replay API 是一个数据恢复工具,它允许开发人员检索5天前的事件。并且提供了恢复由于各种

w397090770   4周前 (12-17) 85℃ 0评论0喜欢

Data + AI Summit

Spark SQL 查询 Parquet 文件的性能提升 30%,字节是如何做到的?

Spark SQL 查询 Parquet 文件的性能提升 30%,字节是如何做到的?
本文来自11月举办的 Data + AI Summit 2020 (原 Spark+AI Summit),主题为《Improving Spark SQL Performance by 30%: How We Optimize Parquet Filter Pushdown and Parquet Reader》的分享,作者为字节跳动的孙科和郭俊。相关 PPT 可以关注 Java与大数据架构 公众号并回复 9912 获取。Parquet 是一种非常流行的列式存储格式。Spark 的算子下推(pushdown filters)可以利用 P

w397090770   1个月前 (12-14) 418℃ 2评论3喜欢