欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据
  • 这些未在 Spark SQL 文档中说明的优化措施,你知道吗?
  • Apache Iceberg 小文件合并原理及实践
  • Apache Iceberg 代码调试技巧
  • Learning Spark, 2nd Edition 可以免费下载了
  • Spark Summit North America 202006 高清 PPT 下载
  • 基于 Apache Iceberg 打造 T+0 实时数仓
  • Apache iceberg:Netflix 数据仓库的基石
  • Apache Spark Delta Lake 事务日志实现源码分析
  • Spark+AI Summit 2019 PPT 下载[共124个]
  • Apache Spark 社区期待的 Delta Lake 开源了
  • Uber 向 Apache 软件基金会提交开源大数据存储库 Hudi
这些未在 Spark SQL 文档中说明的优化措施,你知道吗?Apache Iceberg 小文件合并原理及实践Apache Iceberg 代码调试技巧Learning Spark, 2nd Edition 可以免费下载了Spark Summit North America 202006 高清 PPT 下载基于 Apache Iceberg 打造 T+0 实时数仓Apache iceberg:Netflix 数据仓库的基石Apache Spark Delta Lake 事务日志实现源码分析Spark+AI Summit 2019 PPT 下载[共124个]Apache Spark 社区期待的 Delta Lake 开源了Uber 向 Apache 软件基金会提交开源大数据存储库 Hudi
Spark

Apache Spark 3.1.1 版本发布,众多新特性

Apache Spark 3.1.1 版本发布,众多新特性
Apache Spark 3.1.1 版本于美国当地时间2021年3月2日正式发布,这个版本继续保持使得 Spark 更快,更容易和更智能的目标,Spark 3.1 的主要目标如下:提升了 Python 的可用性;加强了 ANSI SQL 兼容性;加强了查询优化;Shuffle hash join 性能提升;History Server 支持 structured streaming注意,由于技术上的原因,Apache Spark 没有发布 3.1.0 版

w397090770   2天前 99℃ 0评论0喜欢

hudi

Apache Hudi Clustering 数据布局功能介绍

Apache Hudi Clustering 数据布局功能介绍
背景Apache Hudi将流处理带到大数据,相比传统批处理效率高一个数量级,提供了更新鲜的数据。在数据湖/仓库中,需要在摄取速度和查询性能之间进行权衡,数据摄取通常更喜欢小文件以改善并行性并使数据尽快可用于查询,但很多小文件会导致查询性能下降。在摄取过程中通常会根据时间在同一位置放置数据,但如果把查询频

w397090770   1周前 (02-24) 68℃ 0评论0喜欢

Hadoop

蚂蚁绊倒大象?不起眼的小文件竟拖了Hadoop大佬的后腿

蚂蚁绊倒大象?不起眼的小文件竟拖了Hadoop大佬的后腿
在使用Hadoop过程中,小文件是一种比较常见的挑战,如果不小心处理,可能会带来一系列的问题。HDFS是为了存储和处理大数据集(M以上)而开发的,大量小文件会导致Namenode内存利用率和RPC调用效率低下,block扫描吞吐量下降,应用层性能降低。通过本文,我们将定义小文件存储的问题,并探讨如何对小文件进行治理。什么是小

w397090770   1周前 (02-24) 73℃ 0评论0喜欢

Presto

Presto 性能调优

Presto 性能调优
This topic describes tips for tuning parallelism and memory in Presto. The tips are categorized as follows:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoopTuning Parallelism at a Task LevelThe number of splits in a cluster = node-scheduler.max-splits-per-node * number of worker nodes.The node-scheduler.max-splits-per-node denotes the target value for the total num

w397090770   2周前 (02-20) 107℃ 0评论3喜欢

Flink

Apache Flink 背后公司 Ververica 的核心成员离职

Apache Flink 背后公司 Ververica 的核心成员离职
2021年2月15日,Apache Flink 创建者、Ververica 公司(前身 DataArtisans)的联合创始人 Fabian Hueske 在 Twitter 宣布其已经从 Ververica 离职, 不过离职原因不得而知。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop另外,Ververica 公司原 COO Holger Temme 将接替 Kostas Tzoumas 成为新的 CEO。Kostas Tzoumas (原 CEO)

w397090770   2周前 (02-18) 180℃ 0评论1喜欢

Docker

Docker 公司宣布把 Docker Distribution 捐献给了 CNCF

Docker 公司宣布把 Docker Distribution 捐献给了 CNCF
2021年2月4日,负责维护 Docker 引擎的 Justin Cormack 在 Docker 官方博客宣布把 Docker 发行版(Docker Distribution)捐献给了 CNCF,全文如下:​我们很高兴地宣布,Docker 已经把 Docker 发行版(Docker Distribution)捐献给了 CNCF。Docker 致力于开源社区和我们许多项目的开放标准,这一举动将确保 Docker 发行版有一个广泛的团队来维护许多注册中心

w397090770   4周前 (02-06) 85℃ 0评论0喜欢

Spark

Apache Spark 背后公司 Databricks 完成G轮融资,估值高达280亿美元,一年多翻了快五倍

Apache Spark 背后公司 Databricks 完成G轮融资,估值高达280亿美元,一年多翻了快五倍
2021年2月1日, Databricks 在其博客宣布将投资10亿美元,以应对其统一数据平台(unified data platform)在全球的快速普及。 本次融资由富兰克林·邓普顿(Franklin Templeton)领投,加拿大养老金计划投资委员会(Canada Pension Plan Investment Board)、富达管理与研究有限责任公司(Fidelity Management & Research LLC)和 Whale Rock(美国的媒体和技术公

w397090770   4周前 (02-02) 173℃ 0评论1喜欢

Hive

Hive SQL 迁移 Spark SQL 在滴滴的实践

Hive SQL 迁移 Spark SQL 在滴滴的实践
桔妹导读:在滴滴SQL任务从Hive迁移到Spark后,Spark SQL任务占比提升至85%,任务运行时间节省40%,运行任务需要的计算资源节省21%,内存资源节省49%。在迁移过程中我们沉淀出一套迁移流程, 并且发现并解决了两个引擎在语法,UDF,性能和功能方面的差异。迁移背景Spark自从2010年面世,到2020年已经经过十年的发展,现在已经发展

w397090770   1个月前 (01-28) 337℃ 0评论4喜欢

ElasticSearch

AWS 开始反击 Elastic 公司:将要创建维护 Apache 2.0 协议的 Elasticsearch 分支

AWS 开始反击 Elastic 公司:将要创建维护 Apache 2.0 协议的 Elasticsearch 分支
1月15日,ElasticSearch 创始人、Elastic 公司 CEO Shay Banon 宣布,将把 Elasticsearch 和 Kibana 的 Apache 2.0-licensed 源码协议修改成 SSPL(Server Side Public License、服务器端公共许可证)和 Elastic License 双重协议!并且让用户可以选择申请哪个许可。Shay Banon 说这个决策是为了限制云服务提供商提供 Elasticsearch和 Kibana 服务来保护 Elastic 公司在开发免费

w397090770   1个月前 (01-23) 163℃ 0评论1喜欢

Apache Superset

又一个大数据相关项目成为顶级项目

又一个大数据相关项目成为顶级项目
2021年01月21日,Apache 官方博客宣布 Apache® Superset™ 成为顶级项目。Apache® Superset™ 是一个现代化的大数据探索和可视化平台,它允许用户使用简单的无代码可视化构建器和最先进的 SQL 编辑器轻松快速地构建仪表盘(dashboards)。该项目于2015年在 Airbnb 启动,并于2017年5月进入 Apache 孵化器。说白了,其实 Apache Superset 算是一个大数据

w397090770   1个月前 (01-22) 333℃ 0评论1喜欢