欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据
  • PrestoCon Day 2021 会议 PPT 下载
  • Data + AI Summit 2021 全部超清 PPT 下载
  • ClickHouse 在实时场景的应用和优化
  • 这些未在 Spark SQL 文档中说明的优化措施,你知道吗?
  • Apache Iceberg 小文件合并原理及实践
  • Learning Spark, 2nd Edition 可以免费下载了
  • 基于 Apache Iceberg 打造 T+0 实时数仓
PrestoCon Day 2021 会议 PPT 下载Data + AI Summit 2021 全部超清 PPT 下载ClickHouse 在实时场景的应用和优化这些未在 Spark SQL 文档中说明的优化措施,你知道吗?Apache Iceberg 小文件合并原理及实践Learning Spark, 2nd Edition 可以免费下载了基于 Apache Iceberg 打造 T+0 实时数仓
Spark

Magnet:LinkedIn 开源的可扩展、高性能的 Apache Spark shuffle 服务

Magnet:LinkedIn 开源的可扩展、高性能的 Apache Spark shuffle 服务
在 LinkedIn,我们非常依赖离线数据分析来进行数据驱动的决策。多年来,Apache Spark 已经成为 LinkedIn 的主要计算引擎,以满足这些数据需求。凭借其独特的功能,Spark 为 LinkedIn 的许多关键业务提供支持,包括数据仓库、数据科学、AI/ML、A/B 测试和指标报告。需要大规模数据分析的用例数量也在快速增长。从 2017 年到现在,LinkedIn 的 S

w397090770   1周前 (09-08) 125℃ 0评论1喜欢

大数据

Uber 是如何减少大数据平台的成本

Uber 是如何减少大数据平台的成本
随着 Uber 业务的扩张,为其提供支持的基础数据呈指数级增长,因此处理成本也越来越高。 当大数据成为我们最大的运营开支之一时,我们开始了一项降低数据平台成本的举措,该计划将挑战分为三部分:平台效率、供应和需求。 本文将讨论我们为提高数据平台效率和降低成本所做的努力。如果想及时了解Spark、Hadoop或者HBase

w397090770   2周前 (09-05) 78℃ 0评论0喜欢

Flink

Apache Flink 1.14 新特性介绍

Apache Flink 1.14 新特性介绍
一、简介1.14 新版本原本规划有 35 个比较重要的新特性以及优化工作,目前已经有 26 个工作完成;5 个任务不确定是否能准时完成;另外 4 个特性由于时间或者本身设计上的原因,会放到后续版本完成。[1]如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公共帐号:过往记忆大数据1.14 相对于历届版本来说,囊

w397090770   2周前 (09-02) 122℃ 0评论0喜欢

Presto

Presto 在美图的实践

Presto 在美图的实践
导读:本文的主题是Presto高性能引擎在美图的实践,首先将介绍美图在处理ad-hoc场景下为何选择Presto,其次我们如何通过外部组件对Presto高可用与稳定性的增强。然后介绍在美图业务中如何做到合理与高效的利用集群资源,最后如何利用Presto应用于部分离线计算场景中。使大家了解Presto引擎的优缺点,适合的使用场景,以及在美图

w397090770   2周前 (09-01) 13℃ 0评论1喜欢

Scala

Get Programming with Scala 下载

Get Programming with Scala 下载
《Get Programming with Scala》于2021年7月由 Manning 出版,ISBN 为 9781617295270 全书共 560 页。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop图书介绍The perfect starting point for your journey into Scala and functional programming.In Get Programming in Scala you will learn:Object-oriented principles in ScalaExpress program designs in

w397090770   3周前 (08-30) 52℃ 0评论1喜欢

Hadoop

汽车之家离线计算平台的演进之路

汽车之家离线计算平台的演进之路
本次的分享内容分成四个部分: 1.汽车之家离线计算平台现状2.平台构建过程中遇到的问题3.基于构建过程中问题的解决方案4.离线计算平台未来规划 汽车之家离线计算平台现状 1. 汽车之家离线计算平台发展历程如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据 2013年的时候汽

w397090770   3周前 (08-30) 104℃ 0评论1喜欢

Hadoop

Apache Hadoop 基础设施容器化在 Uber 的实践

Apache Hadoop 基础设施容器化在 Uber 的实践
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据过往记忆大数据备注:以下的我们均代表 Uber 的 Hadoop 运维团队。介绍随着 Uber 业务的增长,Uber 公司在 5 年内将 Apache Hadoop(本文简称为“Hadoop”)部署扩展到 21000 台以上的节点,以支持各种分析和机器学习用例。我们组建了一支拥有各

w397090770   4周前 (08-22) 126℃ 0评论2喜欢

Flink

Apache Flink 在 58 同城的应用与实践

Apache Flink 在 58 同城的应用与实践
摘要:本文整理自 58 同城实时计算平台负责人冯海涛在 Flink Forward Asia 2020 分享的议题《Flink 在 58 同城应用与实践》,内容包括: 实时计算平台架实时 SQL 建设Storm 迁移 Flink 实践一站式实时计算平台后续规划如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据实时计算平台架构

w397090770   1个月前 (08-17) 6℃ 0评论0喜欢

Presto

Presto 全新的 Parquet Writer 介绍

Presto 全新的 Parquet Writer 介绍
随着越来越多的公司广泛部署 Presto,Presto 不仅用于查询,还用于数据摄取和 ETL 作业。所有很有必要提高 Presto 文件写入的性能,尤其是流行的列文件格式,如 Parquet 和 ORC。本文我们将介绍 Presto 的全新原生的 Parquet writer ,它可以直接将 Presto 的列式数据结构写到 Parquet 的列式格式,最高可提高6倍的吞吐量,并减少 CPU 和内存开销

w397090770   1个月前 (08-14) 130℃ 0评论2喜欢

Presto

Presto 计算下推原理与实践

Presto 计算下推原理与实践
背景在介绍 Presto 计算下推之前,我们先来回顾一下 Presto 从对应的 Connector 上读取数据的流程,过程如下:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据从上图可以看出,client 提交 SQL 到 Coordinator 上,Coordinator 接收到 SQL 之后,会进行 SQL 语法语义解析,生成逻辑计划树,然后经过 pla

w397090770   1个月前 (08-12) 169℃ 0评论2喜欢