欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

最新发布 第5页

过往记忆专注于大数据技术构架及应用,微信公众号:过往记忆大数据

Spark

Apache Spark 3.1.1 版本发布,众多新特性

Apache Spark 3.1.1 版本发布,众多新特性
Apache Spark 3.1.1 版本于美国当地时间2021年3月2日正式发布,这个版本继续保持使得 Spark 更快,更容易和更智能的目标,Spark 3.1 的主要目标如下:提升了 Python 的可用性;加强了 ANSI SQL 兼容性;加强了查询优化;Shuffle hash join 性能提升;History Server 支持 structured streaming注意,由于技术上的原因,Apache Spark 没有发布 3.1.0 版

w397090770   7个月前 (03-03) 1408℃ 0评论7喜欢

hudi

Apache Hudi Clustering 数据布局功能介绍

Apache Hudi Clustering 数据布局功能介绍
背景Apache Hudi将流处理带到大数据,相比传统批处理效率高一个数量级,提供了更新鲜的数据。在数据湖/仓库中,需要在摄取速度和查询性能之间进行权衡,数据摄取通常更喜欢小文件以改善并行性并使数据尽快可用于查询,但很多小文件会导致查询性能下降。在摄取过程中通常会根据时间在同一位置放置数据,但如果把查询频

w397090770   7个月前 (02-24) 802℃ 0评论3喜欢

Hadoop

蚂蚁绊倒大象?不起眼的小文件竟拖了Hadoop大佬的后腿

蚂蚁绊倒大象?不起眼的小文件竟拖了Hadoop大佬的后腿
在使用Hadoop过程中,小文件是一种比较常见的挑战,如果不小心处理,可能会带来一系列的问题。HDFS是为了存储和处理大数据集(M以上)而开发的,大量小文件会导致Namenode内存利用率和RPC调用效率低下,block扫描吞吐量下降,应用层性能降低。通过本文,我们将定义小文件存储的问题,并探讨如何对小文件进行治理。什么是小

w397090770   7个月前 (02-24) 613℃ 0评论2喜欢

Presto

Presto 性能调优

Presto 性能调优
This topic describes tips for tuning parallelism and memory in Presto. The tips are categorized as follows:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoopTuning Parallelism at a Task LevelThe number of splits in a cluster = node-scheduler.max-splits-per-node * number of worker nodes.The node-scheduler.max-splits-per-node denotes the target value for the total num

w397090770   7个月前 (02-20) 570℃ 0评论4喜欢

Flink

Apache Flink 背后公司 Ververica 的核心成员离职

Apache Flink 背后公司 Ververica 的核心成员离职
2021年2月15日,Apache Flink 创建者、Ververica 公司(前身 DataArtisans)的联合创始人 Fabian Hueske 在 Twitter 宣布其已经从 Ververica 离职, 不过离职原因不得而知。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop另外,Ververica 公司原 COO Holger Temme 将接替 Kostas Tzoumas 成为新的 CEO。Kostas Tzoumas (原 CEO)

w397090770   7个月前 (02-18) 644℃ 0评论3喜欢

Docker

Docker 公司宣布把 Docker Distribution 捐献给了 CNCF

Docker 公司宣布把 Docker Distribution 捐献给了 CNCF
2021年2月4日,负责维护 Docker 引擎的 Justin Cormack 在 Docker 官方博客宣布把 Docker 发行版(Docker Distribution)捐献给了 CNCF,全文如下:​我们很高兴地宣布,Docker 已经把 Docker 发行版(Docker Distribution)捐献给了 CNCF。Docker 致力于开源社区和我们许多项目的开放标准,这一举动将确保 Docker 发行版有一个广泛的团队来维护许多注册中心

w397090770   7个月前 (02-06) 169℃ 0评论2喜欢

Spark

Apache Spark 背后公司 Databricks 完成G轮融资,估值高达280亿美元,一年多翻了快五倍

Apache Spark 背后公司 Databricks 完成G轮融资,估值高达280亿美元,一年多翻了快五倍
2021年2月1日, Databricks 在其博客宣布将投资10亿美元,以应对其统一数据平台(unified data platform)在全球的快速普及。 本次融资由富兰克林·邓普顿(Franklin Templeton)领投,加拿大养老金计划投资委员会(Canada Pension Plan Investment Board)、富达管理与研究有限责任公司(Fidelity Management & Research LLC)和 Whale Rock(美国的媒体和技术公

w397090770   8个月前 (02-02) 443℃ 0评论3喜欢

hudi

Apache Hudi 0.7.0 版本发布,新特性介绍

Apache Hudi 0.7.0 版本发布,新特性介绍
本版本迁移指南 If migrating from release older than 0.5.3, please also check the upgrade instructions for each subsequent release below. Specifically check upgrade instructions for 0.6.0. This release does not introduce any new table versions. The HoodieRecordPayload interface deprecated existing methods, in favor of new ones that also lets us pass properties at runtime. Users areencouraged to migrate out of the depr

w397090770   8个月前 (01-31) 41℃ 0评论0喜欢

Hive

Hive SQL 迁移 Spark SQL 在滴滴的实践

Hive SQL 迁移 Spark SQL 在滴滴的实践
桔妹导读:在滴滴SQL任务从Hive迁移到Spark后,Spark SQL任务占比提升至85%,任务运行时间节省40%,运行任务需要的计算资源节省21%,内存资源节省49%。在迁移过程中我们沉淀出一套迁移流程, 并且发现并解决了两个引擎在语法,UDF,性能和功能方面的差异。迁移背景Spark自从2010年面世,到2020年已经经过十年的发展,现在已经发展

w397090770   8个月前 (01-28) 1182℃ 0评论10喜欢

ElasticSearch

AWS 开始反击 Elastic 公司:将要创建维护 Apache 2.0 协议的 Elasticsearch 分支

AWS 开始反击 Elastic 公司:将要创建维护 Apache 2.0 协议的 Elasticsearch 分支
1月15日,ElasticSearch 创始人、Elastic 公司 CEO Shay Banon 宣布,将把 Elasticsearch 和 Kibana 的 Apache 2.0-licensed 源码协议修改成 SSPL(Server Side Public License、服务器端公共许可证)和 Elastic License 双重协议!并且让用户可以选择申请哪个许可。Shay Banon 说这个决策是为了限制云服务提供商提供 Elasticsearch和 Kibana 服务来保护 Elastic 公司在开发免费

w397090770   8个月前 (01-23) 274℃ 0评论1喜欢