欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据
  • PrestoCon Day 2021 会议 PPT 下载
  • Data + AI Summit 2021 全部超清 PPT 下载
  • ClickHouse 在实时场景的应用和优化
  • 这些未在 Spark SQL 文档中说明的优化措施,你知道吗?
  • Apache Iceberg 小文件合并原理及实践
  • Learning Spark, 2nd Edition 可以免费下载了
  • 基于 Apache Iceberg 打造 T+0 实时数仓
PrestoCon Day 2021 会议 PPT 下载Data + AI Summit 2021 全部超清 PPT 下载ClickHouse 在实时场景的应用和优化这些未在 Spark SQL 文档中说明的优化措施,你知道吗?Apache Iceberg 小文件合并原理及实践Learning Spark, 2nd Edition 可以免费下载了基于 Apache Iceberg 打造 T+0 实时数仓
Apache Impala

Impala在腾讯金融大数据场景中的应用 24小时内最新

Impala在腾讯金融大数据场景中的应用
导读:在腾讯金融场景,我们每天都会产生大量的数据,为了提升分析的交互性,让决策更加敏捷,我们引入了Impala来解决我们的分析需求。所以,本文将和大家分享Impala在腾讯金融大数据场景中的应用架构,Impala的原理,落地过程的案例和优化以及总结思考。Impala的架构 首先介绍Impala的整体架构,帮助大家从宏观角度理

w397090770   41分钟前 1℃ 0评论0喜欢

Alluxio

使用 Spark+Alluxio 加速数据应用的最佳实践 24小时内最新

使用 Spark+Alluxio 加速数据应用的最佳实践
本文是 2021-10-13 日周三下午13:30 举办的议题为《Best Practice in Accelerating Data Applications with Spark+Alluxio》的分享,作者来自 Alluxio 的 David Zhu。本次演讲将分享 Alluxio 和 Spark 集成解决方案的设计和用例,以及在设计和实现 Alluxio分 布式系统时的最佳实践以及不要做什么。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信

w397090770   8小时前 12℃ 0评论0喜欢

Presto

使用 Alluxio 实现 Presto Caching @ Uber 24小时内最新

使用 Alluxio 实现 Presto Caching @ Uber
本文是 2021-10-13 日周三下午13:30 举办的议题为《Enabling Presto Caching at Uber with Alluxio》的分享,作者来自 Uber 的 Zhongting Hu 和 Alluxio 发 Dr. Beinan Wang。Zhongting Hu is Tech Lead Manager of the Interactive Analytics Team at Uber. He is leading and managing Presto ecosystems inside Uber.Dr. Beinan Wang is a software engineer from Alluxio and is the committer of PrestoDB. Prior to Alluxio, he

w397090770   11小时前 19℃ 0评论0喜欢

Hadoop

Uber 是如何提高 HDFS I/O 利用率的

Uber 是如何提高 HDFS I/O 利用率的
以较低的硬件成本扩展我们的数据基础设施,同时保持高性能和服务可靠性并非易事。 为了适应 Uber 数据存储和分析计算的指数级增长,数据基础设施团队通过结合硬件重新设计软件层,以扩展 Apache Hadoop® HDFS :HDFS Federation、Warm Storage、YARN 在 HDFS 数据节点上共存,以及 YARN 利用率的提高提高了系统的 CPU 和内存使用效率将多

w397090770   7天前 47℃ 0评论0喜欢

Spark

Apache Spark 3.2 内置支持会话窗口

Apache Spark 3.2 内置支持会话窗口
Apache Spark™ Structured Streaming 允许用户在事件时间的窗口上进行聚合。 在 Apache Spark 3.2™ 之前,Spark 支持滚动窗口(tumbling windows)和滑动窗口( sliding windows)。在已经发布的 Apache Spark 3.2 中,社区添加了“会话窗口(session windows)”作为新支持的窗口类型,它适用于流查询和批处理查询什么是会话窗口如果想及时了解Spark、Had

w397090770   1周前 (10-21) 52℃ 0评论0喜欢

Spark

Apache Spark 3.2 正式发布,新特性详解

Apache Spark 3.2 正式发布,新特性详解
经过七轮投票, Apache Spark™ 3.2 终于在昨天正式发布了。Apache Spark™ 3.2 已经是 Databricks Runtime 10.0 的一部分,感兴趣的同学可以去试用一下。按照惯例,这个版本应该不是稳定版,所以建议大家不要在生产环境中使用。Spark 的每月 Maven 下载数量迅速增长到 2000 万,与去年同期相比,Spark 的月下载量翻了一番。Spark 已成为在单节

w397090770   1周前 (10-20) 125℃ 0评论2喜欢

Hive

Hive SQL迁移 Spark SQL 在网易传媒的实践

Hive SQL迁移 Spark SQL 在网易传媒的实践
引言:把基于mapreduce的离线hiveSQL任务迁移到sparkSQL,不但能大幅缩短任务运行时间,还能节省不少计算资源。最近我们也把组内2000左右的hivesql任务迁移到了sparkSQL,这里做个简单的记录和分享,本文偏重于具体条件下的方案选择。迁移背景 SQL任务运行慢Hive SQL处理任务虽然较为稳定,但是其时效性已经达瓶颈,无法再进一

w397090770   1周前 (10-19) 53℃ 0评论0喜欢

Spark

即将发布的 Apache Spark 3.2 将内置 Pandas API

即将发布的 Apache Spark 3.2 将内置 Pandas API
在即将发布的 Apache Spark™ 3.2 版本中 pandas API 将会成为其中的一部分。Pandas 是一个强大、灵活的库,并已迅速发展成为标准的数据科学库之一。现在,pandas 的用户将能够在他们现有的 Spark 集群上利用 pandas API。几年前,我们启动了 Koalas 这个开源项目,它在 Spark 之上实现了 Pandas DataFrame API,并被数据科学家广泛采用。最近,Koala

w397090770   2周前 (10-13) 146℃ 0评论1喜欢

Presto

动态代码生成技术在 Presto 中使用简介

动态代码生成技术在 Presto 中使用简介
在《ASM 与 Presto 动态代码生成简介》这篇文章中,我们简单介绍了 Presto 动态代码生成的原理以及 Presto 在计算表达式的地方会使用到动态代码生成技术。为了加深理解,本文将以两个例子介绍 Presto 里面动态代码生成的使用。EmbedVersion我们往 Presto 提交 SQL 查询以及 TaskExecutor 启动 TaskRunner 执行 Task 的时候都会使用到 EmbedVersion 类

w397090770   2周前 (10-12) 66℃ 0评论1喜欢

Flink

官宣|Apache Flink 1.14.0 发布公告

官宣|Apache Flink 1.14.0 发布公告
在 Apache 软件基金会近期发布的年度报告中,Apache Flink 再次跻身最活跃项目前 5 名!该项目最新发布的 1.14.0 版本同样体现了其非凡的活跃力,囊括了来自超过 200 名贡献者的 1000 余项贡献。整个社区为项目的推进付出了持之以恒的努力,我们引以为傲。新版本在 SQL API、更多连接器支持、Checkpoint 机制、PyFlink 等多个方面带来了大

zz~~   3周前 (10-09) 161℃ 0评论1喜欢