欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

2021年06月的内容

数据仓库

网易云音乐数仓建设之路

网易云音乐数仓建设之路
网易云音乐作为一个MAU已经超过亿级的业务,在数据仓库、数据体系、数据应用建设是怎么做的?在近日举办的“网易数帆技术沙龙”上,网易云音乐数据专家雷剑波就此话题做了全面的分享,介绍了数仓建设的目标,为此建立的一系列规范和机制,如何通过系统保证这些规范和机制的落地,以及取得的效果。数仓建设痛点与目

w397090770   3个月前 (06-30) 428℃ 0评论1喜欢

行业资讯

Apache 董事会宣布终止 Apache Sqoop 项目

Apache 董事会宣布终止 Apache Sqoop 项目
2021年05月06日,Apache Sqoop 的 PMC venkatrangan 给 Sqoop 项目的 dev 邮件列表发送了一篇名为《Seeking inputs on the Apache Sqoop project》的邮件:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据从邮件内容可以看出,Apache Sqoop 最后一次 release 的时间是三年前,最近30个月没有任何新的 PMC 和 committer 加入到

w397090770   3个月前 (06-27) 456℃ 0评论2喜欢

MongoDB

MongoDB 查看某个命令的运行统计信息

MongoDB 查看某个命令的运行统计信息
和 MySQL 以及其他计算引擎类似,MongoDB 给我们提供了 explain 命令来查看某个查询的执行计划,其使用也比较简单,具体如下:[code lang="bash"]db.collection.explain().<method(...)>[/code]explain 命令默认是打印出查询的 queryPlanner,也就是什么参数都不传递。从 3.5.5 版本开始,explain 命名还支持 executionStats 和 allPlansExecution 两种运行模式

w397090770   3个月前 (06-21) 28℃ 0评论0喜欢

Data + AI Summit

Data + AI Summit 2021 全部超清 PPT 下载

Data + AI Summit 2021 全部超清 PPT 下载
Data + AI Summit 2021 于2021年05月24日至28日举行。本次会议是在线举办的,一共为期五天,第一、二天是培训,第三天到第五天是正式会议。本次会议有超过200个议题,演讲嘉宾包括业界、研究和学术界的专家,会议涵盖来自从业者的技术内容,他们将使用 Apache Spark™、Delta Lake、MLflow、Structured Streaming、BI和SQL分析、深度学习和机器学习

w397090770   3个月前 (06-20) 526℃ 0评论2喜欢

Presto

Presto 在 Pinterest 的实践

Presto 在 Pinterest 的实践
作为一家数据驱动型公司,Pinterest 的许多关键商业决策都是基于数据分析做出的。分析平台是由大数据平台团队提供的,它使公司内部的其他人能够处理 PB 级的数据,以得到他们需要的结果。数据分析是 Pinterest 的一个关键功能,不仅可以回答商业问题,还可以解决工程问题,对功能进行优先排序,识别用户面临的最常见问题,

w397090770   3个月前 (06-20) 180℃ 0评论0喜欢

分布式系统理论

MPP 和 Batch 架构优缺点对比

MPP 和 Batch 架构优缺点对比
Apache HAWQ(incubating)的第一个版本受益于ASF(Apache software foundation)组织,通过将MPP(Massively Parallel Processing)和批处理系统(batch system)有效的结合,在性能上有了很大的提升,并且克服了一些关键的限制问题。一个新的重新设计的执行引擎在以下的几个问题在总体系统性能上有了很大的提高:硬件错误引起的短板问题(straggler)并发限制

w397090770   3个月前 (06-18) 116℃ 0评论0喜欢

Presto

Presto 动态过滤(dynamic filtering)原理与应用

Presto 动态过滤(dynamic filtering)原理与应用
早在2005年,Oracle 数据库就支持比较丰富的 dynamic filtering 功能,而 Spark 和 Presto 在最近版本才开始支持这个功能。本文将介绍 Presto 动态过滤的原理以及具体使用。Apache Spark 的动态分区裁减Apache Spark 3.0 给我们带来了许多的新特性用于加速查询性能,其中一个就是动态分区裁减(Dynamic Partition Pruning,DPP),所谓的动态分区裁剪就

w397090770   4个月前 (06-01) 405℃ 0评论1喜欢