w397090770的文章

Presto 动态过滤（dynamic filtering）原理与应用

早在2005年，Oracle 数据库就支持比较丰富的 dynamic filtering 功能，而 Spark 和 Presto 在最近版本才开始支持这个功能。本文将介绍 Presto 动态过滤的原理以及具体使用。Apache Spark 的动态分区裁减Apache Spark 3.0 给我们带来了许多的新特性用于加速查询性能，其中一个就是动态分区裁减（Dynamic Partition Pruning，DPP），所谓的动态分区裁剪就

4年前 (2021-06-01) 1581℃ 0评论2喜欢

Delta Lake

Delta Lake 1.0.0 发布，多项新特性重磅发布

赶在 Data + AI Summit 2021 之前，Delta Lake 1.0.0 重磅发布，这个版本是基于 Spark 3.1 的，带来了许多新特性。本文将结合 Michael Armbrust 大牛在 Data + AI Summit 2021 的演讲《Announcing Delta Lake 1.0》来介绍 Delta Lake 1.0.0 版本的一些重要的新特性。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据Delta Lake 0.1

4年前 (2021-05-27) 937℃ 0评论2喜欢

Delta Lake

Delta Lake: The Definitive Guide 预览版下载

本书作者 Denny Lee, Tathagata Das, Vini Jaiswal，预计2022年4月出版，出版社 O'Reilly Media, Inc.，ISBN：9781098104528分析和机器学习模型的好坏取决于它们所依赖的数据。查询处理过的数据并从中获得见解需要一个健壮的数据管道——以及一个有效的存储解决方案，以确保数据质量、数据完整性和性能。本指南向您介绍 Delta Lake，这是一种开

4年前 (2021-05-27) 608℃ 0评论2喜欢

Delta Lake

Data Lakehouse 的演变

本文是 Forest Rim Technology 数据团队撰写的，作者 Bill Inmon 和 Mary Levins，其中 Bill Inmon 被称为是数据仓库之父，最早的数据仓库概念提出者，被《计算机世界》评为计算机行业历史上最具影响力的十大人物之一。原始数据的挑战随着大量应用程序的出现，产生了相同的数据在不同地方出现不同值的情况。为了做出决定，用户必须找

4年前 (2021-05-25) 667℃ 0评论0喜欢

Spark

Apache Spark 3.0 是如何提高 SQL 工作负载的性能

在几乎所有处理复杂数据的领域，Spark 已经迅速成为数据和分析生命周期团队的事实上的分布式计算框架。Spark 3.0 最受期待的特性之一是新的自适应查询执行框架(Adaptive Query Execution，AQE)，该框架解决了许多 Spark SQL 工作负载遇到的问题。AQE 在2018年初由英特尔和百度组成的团队最早实现。AQE 最初是在 Spark 2.4 中引入的， Spark 3.0 做

4年前 (2021-05-23) 1281℃ 0评论2喜欢

Spark

Apache Spark 3.1 中 Structured Streaming 方面的改进

Apache Spark 3.1.x 版本发布到现在已经过了两个多月了，这个版本继续保持使得 Spark 更快，更容易和更智能的目标，Spark 3.1 的主要目标如下：提升了 Python 的可用性；加强了 ANSI SQL 兼容性；加强了查询优化；Shuffle hash join 性能提升；History Server 支持 structured streaming更多详情请参见这里。在这篇博文中，我们总结了3.1版本中

4年前 (2021-05-16) 799℃ 0评论3喜欢

其他

使用 ffmpeg 批量合并视频

FFmpeg 是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序，采用 LGPL 或 GPL 许可证。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库 libavcodec，为了保证高可移植性和编解码质量，libavcodec 里很多 code 都是从头开发的。如果想及时了解Spark、Hadoop或者HBase相

4年前 (2021-04-30) 879℃ 0评论2喜欢

MongoDB

MongoDB 在查询中利用 $expr 来实现聚合表达

With MongoDB 3.6 the query language gains a new level of expressivity: you can now make use of aggregation expressions in a query using the $expr operator. This feature allows you to take full advantage of all expression operators within all queries, much of which previously had to be done within application logic or was restricted to the aggregation pipeline. $expr offers better performance than the $where operator, which while still a

4年前 (2021-04-27) 2483℃ 0评论2喜欢

Kafka

每个 Apache Kafka 开发者都应该知道的5件事

Apache Kafka 是一个开源流处理平台，如今有超过30％的财富500强企业使用该平台。Kafka 有很多特性使其成为事件流平台（event streaming platform）的事实上的标准。在这篇博文中，我将介绍每个 Kafka 开发者都应该知道的五件事，这样在使用 Kafka 就可以避免很多问题。Tip #1 理解消息传递和持久性保证对于数据持久性（data durability），

4年前 (2021-04-18) 1152℃ 0评论4喜欢

Apache Iceberg

Apache Iceberg 在网易云音乐的实践

iceberg 详细设计Apache iceberg 是Netflix开源的全新的存储格式，我们已经有了parquet、orc、arvo等非常优秀的存储格式以后，Netfix为什么还要设计出iceberg呢？和parquet、orc等文件格式不同， iceberg在业界被称之为Table Foramt，parquet、orc、avro等文件等格式帮助我们高效的修改、读取单个文件；同样Table Foramt帮助我们高效的修改和读取一类文件

4年前 (2021-04-15) 2354℃ 0评论6喜欢

上一页
1
···
10
11
12
13
14
15
16
17
18
19
20
...
134
下一页
共 134 页