欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

2025年01月的内容

Apache Parquet

通过 Parquet Page Indexes 加速查询性能 24小时内最新

通过 Parquet Page Indexes 加速查询性能
分析型SQL引擎(如Apache Impala)在进行大型表扫描和聚合查询工作负载时非常出色。在大数据生态系统中,单个表的大小可达PB(拍字节)级别,因此要实现快速的查询响应时间,就需要依据WHERE或HAVING子句中的条件对表数据进行智能过滤。通常会使用一个或多个列来对大型表进行分区,这些列能够有效地对数据进行范围过滤。例

w397090770   6小时前 5℃ 0评论0喜欢

Spark

《现代C++编程指南》:尽可能使用 auto 类型占位符 24小时内最新

《现代C++编程指南》:尽可能使用 auto 类型占位符
自动类型推导是现代 C++ 中最重要且广泛使用的特性之一。新的 C++ 标准使得在各种上下文中可以使用 auto 作为类型的占位符,并让编译器推导出实际的类型。在 C++11 中,auto 可用于声明局部变量以及具有尾随返回类型的函数的返回类型。在 C++14 中,auto 可用于无需指定尾随类型的函数的返回类型以及 lambda 表达式中的参数声明。未

w397090770   8小时前 11℃ 0评论1喜欢

Spark

Magnet: 基于推送的大规模数据处理 Shuffle 服务

Magnet: 基于推送的大规模数据处理 Shuffle 服务
本文翻译自:《Magnet: Push-based Shuffle Service for Large-scale Data Processing》摘要在过去的十年中,Apache Spark 已成为大规模数据处理的流行计算引擎。与其他基于 MapReduce 计算范式的计算引擎一样,随机Shuffle操作(即中间数据的全部对全部传输)在 Spark 中起着重要作用。在 LinkedIn,随着数据量和 Spark 部署规模的快速增长,随机Shuffle操作正

w397090770   1周前 (01-06) 20℃ 0评论0喜欢

Spark

告别 Shuffle!深入探索 Spark 的 Storage Partition Join(SPJ) 技术

告别 Shuffle!深入探索 Spark 的 Storage Partition Join(SPJ) 技术
随着 Spark >= 3.3(在 3.4 中更加成熟)中引入的存储分区连接(Storage Partition Join,SPJ)优化技术,您可以在不触发 Shuffle 的情况下对分区的数据源 V2 表执行连接操作(当然,需要满足一些条件)。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据Shuffle 是昂贵的,尤其是在 Spark 中的连

w397090770   2周前 (01-03) 61℃ 0评论0喜欢

数据库

2024 年数据库回顾:一年综述

2024 年数据库回顾:一年综述
本文原文来自:Databases in 2024: A Year in Review // Blog // Andy Pavlo - Carnegie Mellon University就像一颗子弹击中你的头顶,我回来了,要给你带来我关于数据库领域发生的事情的年度综述。是的,我曾经在OtterTune博客上写过这篇文章,但公司已经倒闭了(安息吧)。我现在在我的教授博客上发表这篇文章。过去的一年有很多值得关注的事情,从

w397090770   2周前 (01-03) 34℃ 0评论0喜欢