欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据
  • ClickHouse 在实时场景的应用和优化
  • 这些未在 Spark SQL 文档中说明的优化措施,你知道吗?
  • Apache Iceberg 小文件合并原理及实践
  • Apache Iceberg 代码调试技巧
  • Learning Spark, 2nd Edition 可以免费下载了
  • Spark Summit North America 202006 高清 PPT 下载
  • 基于 Apache Iceberg 打造 T+0 实时数仓
  • Apache iceberg:Netflix 数据仓库的基石
  • Apache Spark Delta Lake 事务日志实现源码分析
  • Spark+AI Summit 2019 PPT 下载[共124个]
  • Apache Spark 社区期待的 Delta Lake 开源了
  • Uber 向 Apache 软件基金会提交开源大数据存储库 Hudi
ClickHouse 在实时场景的应用和优化这些未在 Spark SQL 文档中说明的优化措施,你知道吗?Apache Iceberg 小文件合并原理及实践Apache Iceberg 代码调试技巧Learning Spark, 2nd Edition 可以免费下载了Spark Summit North America 202006 高清 PPT 下载基于 Apache Iceberg 打造 T+0 实时数仓Apache iceberg:Netflix 数据仓库的基石Apache Spark Delta Lake 事务日志实现源码分析Spark+AI Summit 2019 PPT 下载[共124个]Apache Spark 社区期待的 Delta Lake 开源了Uber 向 Apache 软件基金会提交开源大数据存储库 Hudi
Apache Iceberg

Apache Iceberg 在网易云音乐的实践

Apache Iceberg 在网易云音乐的实践
iceberg 详细设计Apache iceberg 是Netflix开源的全新的存储格式,我们已经有了parquet、orc、arvo等非常优秀的存储格式以后,Netfix为什么还要设计出iceberg呢?和parquet、orc等文件格式不同, iceberg在业界被称之为Table Foramt,parquet、orc、avro等文件等格式帮助我们高效的修改、读取单个文件;同样Table Foramt帮助我们高效的修改和读取一类文件

w397090770   22小时前 12℃ 0评论1喜欢

hudi

Apache Hudi 0.8.0 版本发布,Flink 集成有重大提升以及支持并行写

Apache Hudi 0.8.0 版本发布,Flink 集成有重大提升以及支持并行写
迁移指南如果从 0.5.3 以下版本迁移,请检查这个版本后面的其他版本的升级说明。如果需要升级到 0.8 版本,请参阅 0.6.0 版本的升级指南,因为本版本没有引入新的表版本(table versions)HoodieRecordPayload接口不建议使用现有方法,而推荐使用新方法,该方法还允许我们在运行时传递属性。 鼓励用户从不建议使用的方法中迁移

w397090770   2天前 27℃ 0评论1喜欢

Kafka

即将发布的 Apache Kafka 2.8 将不需要依赖 Zookeeper,单集群支持数百万个分区

即将发布的 Apache Kafka 2.8 将不需要依赖 Zookeeper,单集群支持数百万个分区
Apache Kafka 的核心设计是日志(Log)—— 一个简单的数据结构,使用顺序操作。以日志为中心的设计带来了高效的磁盘缓冲和 CPU 缓存使用、预取、零拷贝数据传输和许多其他好处,从而使 Kafka 能够提供高效率和吞吐量的功能。对于那些刚接触 Kafka 的人来说,主题(topic)以及提交日志的底层实现通常是他们学习的第一件事。但

w397090770   5天前 86℃ 0评论2喜欢

Apache DolphinScheduler

Apache DolphinScheduler:国人主导的分布式工作流调度平台正式成为 Apache 顶级项目

Apache DolphinScheduler:国人主导的分布式工作流调度平台正式成为 Apache 顶级项目
全球最大的开源软件基金会 Apache 软件基金会(以下简称 Apache)于北京时间 2021年4月9日在官方渠道宣布Apache DolphinScheduler 毕业成为Apache顶级项目。这是首个由国人主导并贡献到 Apache 的大数据工作流调度领域的顶级项目。DolphinScheduler™ 已经是联通、IDG、IBM、京东物流、联想、新东方、诺基亚、360、顺丰和腾讯等 400+ 公司在使用

w397090770   7天前 60℃ 0评论1喜欢

Spark

唯品会 Apache Spark 3.0 升级之路

唯品会 Apache Spark 3.0 升级之路
导读.bordered th, .bordered td{text-align:left;}唯品会离线平台SPARK2.3.2无缝升级到SPARK3.0.1版本,完全做到了对用户透明,目前正按着既定方案进行升级,新的版本SPARK CORE/SQL/PySpark进行了优化和BugFix,并且Merge了SPARK vip 2.3.2 重要Patch,在性能和易用性上比旧版本都有较大提升。这篇文章介绍了我们升级SPARK过程中遇到的挑战和思考,

w397090770   2周前 (04-05) 156℃ 0评论3喜欢

ClickHouse

ClickHouse 在实时场景的应用和优化

ClickHouse 在实时场景的应用和优化
讲师:郭映中 字节跳动 ClickHouse 研发工程师此次分享分为三部分内容,第一部分通过讲解推荐和广告业务的两个典型案例,穿插介绍字节内部相应的改进。第二部分会介绍典型案例中未覆盖到的改进和经验。第三部分会提出目前的不足和未来的改进计划。早期实践如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注

w397090770   1个月前 (03-05) 848℃ 0评论3喜欢

Presto

Hive 迁移到 Presto 在 OPPO 的实践

Hive 迁移到 Presto 在 OPPO 的实践
Hive 设计之初,就被定位一款离线数仓产品,虽然Hortonworks喊出了Make Apache Hive 100x Faster的牛逼口号,也在上面做了大量的优化,然而性能提升依旧不大。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop而随着OPPO数据量一步步的增多,动辄运行几个小时的hive再也满足不了交互查询的需求,因此我

w397090770   1个月前 (03-05) 309℃ 0评论6喜欢

Spark

Apache Spark 3.1.1 版本发布,众多新特性

Apache Spark 3.1.1 版本发布,众多新特性
Apache Spark 3.1.1 版本于美国当地时间2021年3月2日正式发布,这个版本继续保持使得 Spark 更快,更容易和更智能的目标,Spark 3.1 的主要目标如下:提升了 Python 的可用性;加强了 ANSI SQL 兼容性;加强了查询优化;Shuffle hash join 性能提升;History Server 支持 structured streaming注意,由于技术上的原因,Apache Spark 没有发布 3.1.0 版

w397090770   1个月前 (03-03) 688℃ 0评论5喜欢

hudi

Apache Hudi Clustering 数据布局功能介绍

Apache Hudi Clustering 数据布局功能介绍
背景Apache Hudi将流处理带到大数据,相比传统批处理效率高一个数量级,提供了更新鲜的数据。在数据湖/仓库中,需要在摄取速度和查询性能之间进行权衡,数据摄取通常更喜欢小文件以改善并行性并使数据尽快可用于查询,但很多小文件会导致查询性能下降。在摄取过程中通常会根据时间在同一位置放置数据,但如果把查询频

w397090770   2个月前 (02-24) 260℃ 0评论2喜欢

Hadoop

蚂蚁绊倒大象?不起眼的小文件竟拖了Hadoop大佬的后腿

蚂蚁绊倒大象?不起眼的小文件竟拖了Hadoop大佬的后腿
在使用Hadoop过程中,小文件是一种比较常见的挑战,如果不小心处理,可能会带来一系列的问题。HDFS是为了存储和处理大数据集(M以上)而开发的,大量小文件会导致Namenode内存利用率和RPC调用效率低下,block扫描吞吐量下降,应用层性能降低。通过本文,我们将定义小文件存储的问题,并探讨如何对小文件进行治理。什么是小

w397090770   2个月前 (02-24) 327℃ 0评论2喜欢