欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据
大数据技术博客公众号bigdata_ai
开发爱好者社区:
Java技术范

2020年10月的内容

Spark

Apache Spark 中支持的七种 Join 类型

Apache Spark 中支持的七种 Join 类型
数据分析中将两个数据集进行 Join 操作是很常见的场景。我在 这篇 文章中介绍了 Spark 支持的五种 Join 策略,本文我将给大家介绍一下 Apache Spark 中支持的 Join 类型(Join Type)。目前 Apache Spark 3.0 版本中,一共支持以下七种 Join 类型:INNER JOINCROSS JOINLEFT OUTER JOINRIGHT OUTER JOINFULL OUTER JOINLEFT SEMI JOINLEFT ANTI JOIN在实现上

w397090770   5天前 107℃ 0评论0喜欢

Presto

Presto 在滴滴的探索与实践

Presto 在滴滴的探索与实践
Presto在滴滴内部发展三年,已经成为滴滴内部Ad-Hoc和Hive SQL加速的首选引擎。目前服务6K+用户,每天读取2PB ~ 3PB HDFS数据,处理30万亿~35万亿条记录,为了承接业务及丰富使用场景,滴滴Presto需要解决稳定性、易用性、性能、成本等诸多问题。我们在3年多的时间里,做了大量优化和二次开发,积攒了非常丰富的经验。本文分享了滴滴

w397090770   1周前 (10-21) 120℃ 0评论2喜欢

ClickHouse

QQ音乐PB级ClickHouse实时数据平台架构演进之路

QQ音乐PB级ClickHouse实时数据平台架构演进之路
OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值。本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾讯云EMR产品深度合作的案例解读,还原一个不一样的大数据云端解决方案。一、背景介绍QQ音乐是腾讯音乐旗下一款领先的音乐流媒体产品,平台打造了“听

w397090770   1周前 (10-21) 109℃ 0评论0喜欢

Delta Lake

深入理解 Delta Lake 的 DML 实现原理 (Update, Delete, Merge)

深入理解 Delta Lake 的 DML 实现原理 (Update, Delete, Merge)
深入理解 Apache Spark Delta Lake 的事务日志 深入理解 Delta Lake:Schema Enforcement & Evolution深入理解 Delta Lake 的 DML 实现原理 (Update, Delete, Merge)Delta Lake 支持 DML 命令,包括 DELETE, UPDATE, 以及 MERGE,这些命令简化了 CDC、审计、治理以及 GDPR/CCPA 工作流等业务场景。在这篇文章中,我们将演示如何使用这些 DML 命令,并会介绍这些命令的

w397090770   3周前 (10-12) 165℃ 0评论0喜欢

Flink

Apache Hudi 现在也支持 Flink 引擎了

Apache Hudi 现在也支持 Flink 引擎了
本文作者:王祥虎,原文链接:https://mp.weixin.qq.com/s/LvKaj5ytk6imEU5Dc1Sr5Q,欢迎关注 Apache Hudi 技术社区公众号:ApacheHudi。Apache Hudi是由Uber开发并开源的数据湖框架,它于2019年1月进入Apache孵化器孵化,次年5月份顺利毕业晋升为Apache顶级项目。是当前最为热门的数据湖框架之一。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢

w397090770   3周前 (10-09) 292℃ 0评论0喜欢