w397090770的文章

Presto 在有赞的实践之路

一、前言本文主要介绍了 Presto 的简单原理，以及 Presto 在有赞的实践之路。二、Presto 介绍Presto 是由 Facebook 开发的开源大数据分布式高性能 SQL 查询引擎。起初，Facebook 使用 Hive 来进行交互式查询分析，但 Hive 是基于 MapReduce 为批处理而设计的，延时很高，满足不了用户对于交互式查询想要快速出结果的场景。为了解决 Hive

5年前 (2020-12-21) 906℃ 0评论2喜欢

Kafka

前言当开发人员通过我们提供的 API 使用公开的 Twitter 数据时，他们需要可靠性、高效的性能以及稳定性。因此，在前一段时间，我们为 Account Activity API 启动了 Account Activity Replay API ，让开发人员将稳定性融入到他们的系统中。Account Activity Replay API 是一个数据恢复工具，它允许开发人员检索5天前的事件。并且提供了恢复由于各种

5年前 (2020-12-17) 661℃ 0评论0喜欢

Data + AI Summit

Spark SQL 查询 Parquet 文件的性能提升 30%，字节是如何做到的？

本文来自11月举办的 Data + AI Summit 2020 （原 Spark+AI Summit），主题为《Improving Spark SQL Performance by 30%: How We Optimize Parquet Filter Pushdown and Parquet Reader》的分享，作者为字节跳动的孙科和郭俊。相关 PPT 可以关注 Java与大数据架构公众号并回复 9912 获取。Parquet 是一种非常流行的列式存储格式。Spark 的算子下推（pushdown filters）可以利用 P

5年前 (2020-12-14) 2995℃ 2评论4喜欢

Data + AI Summit

物化列：字节为解决 Spark 嵌套列查询性能低下的优化

本文来自11月举办的 Data + AI Summit 2020 （原 Spark+AI Summit），主题为《Materialized Column- An Efficient Way to Optimize Queries on Nested Columns》的分享，作者为字节跳动的郭俊。本文相关 PPT 可以关注 Java与大数据架构公众号并回复 9910 获取。在数据仓库领域，使用复杂类型（如map）中的一列或多列，或者将许多子字段放入其中的场景是非常

5年前 (2020-12-13) 994℃ 0评论3喜欢

Idea

IntelliJ IDEA 2020.3 正式版发布，多项超酷新功能

2020年12月01日，IntelliJ IDEA 2020.3 正式发布，这是2020年的第三个里程碑版本。2020年其他两个版本可以参见IntelliJ IDEA 2020.2 稳定版发布和 IntelliJ IDEA 2020.1 稳定版发布。本文主要介绍 IntelliJ IDEA 2020.3 的新功能。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop用户体验重新设置欢迎界面这个

5年前 (2020-12-10) 1268℃ 0评论0喜欢

Hadoop

恭喜！新一代分布式对象存储 Ozone 成为顶级项目

刚刚获悉，Apache基金董事会通过一致表决，正式批准分布式文件对象存储Ozone从Hadoop社区孵化成功，成为独立的Apache顶级开源项目。这意味着，作为腾讯大数据团队首个参与和主导的开源项目，Ozone已得到全球Apache技术专家的一致认可，成为世界顶级的存储开源项目之一。Ozone 是Apache Hadoop社区推出的面向大数据领域的新一代分布

5年前 (2020-12-09) 1324℃ 0评论7喜欢

Data + AI Summit

Data + AI Summit 欧洲2020全部超清 PPT 下载

Data + AI Summit Europe 2020 原 Spark + AI Summit Europe 于2020年11月17日至19日举行。由于新冠疫情影响，本次会议和六月份举办的会议一样在线举办，一共为期三天，第一天是培训，第二天和第三天是正式会议。会议涵盖来自从业者的技术内容，他们将使用 Apache Spark™、Delta Lake、MLflow、Structured Streaming、BI和SQL分析、深度学习和机器学习框架来

5年前 (2020-12-06) 1321℃ 0评论2喜欢

Apache Iceberg

Apache Iceberg 的时间旅行是如何实现的？

为了更好的使用 Apache Iceberg，理解其时间旅行是很有必要的，这个其实也会对 Iceberg 表的读取过程有个大致了解。不过在介绍 Apache Iceberg 的时间旅行（Time travel）之前，我们需要了解 Apache Iceberg 的底层数据组织结构。Apache Iceberg 的底层数据组织我们在《一条数据在 Apache Iceberg 之旅：写过程分析》这篇文章中详细地介绍了 Apache I

5年前 (2020-11-29) 3910℃ 0评论5喜欢

Delta Lake

Data Lakehouse (湖仓一体) 到底是什么

背景数据湖（Data Lake)，湖仓一体（Data Lakehouse）俨然已经成为了大数据领域最为火热的流行词，在接受这些流行词洗礼的时候，身为技术人员我们往往会发出这样的疑问，这是一种新的技术吗，还是仅仅只是概念上的翻新（新瓶装旧酒）呢？它到底解决了什么问题，拥有什么样新的特性呢？它的现状是什么，还存在什么问题呢？

5年前 (2020-11-28) 5958℃ 0评论7喜欢

Flink

Flink 1.11 与 Hive 批流一体数仓实践

导读：Flink 从 1.9.0 开始提供与 Hive 集成的功能，随着几个版本的迭代，在最新的 Flink 1.11 中，与 Hive 集成的功能进一步深化，并且开始尝试将流计算场景与Hive 进行整合。本文主要分享在 Flink 1.11 中对接 Hive 的新特性，以及如何利用 Flink 对 Hive 数仓进行实时化改造，从而实现批流一体的目标。主要内容包括： Flink 与 Hive 集成的

5年前 (2020-11-26) 2475℃ 0评论11喜欢

上一页
1
···
14
15
16
17
18
19
20
21
22
23
24
...
134
下一页
共 134 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

w397090770的文章

Presto 在有赞的实践之路

Twitter 如何将 Kafka 当做一个存储系统

Spark SQL 查询 Parquet 文件的性能提升 30%，字节是如何做到的？

物化列：字节为解决 Spark 嵌套列查询性能低下的优化

IntelliJ IDEA 2020.3 正式版发布，多项超酷新功能

恭喜！新一代分布式对象存储 Ozone 成为顶级项目

Data + AI Summit 欧洲2020全部超清 PPT 下载

Apache Iceberg 的时间旅行是如何实现的？

Data Lakehouse (湖仓一体) 到底是什么

Flink 1.11 与 Hive 批流一体数仓实践