欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据
  • 盘点2021年晋升为Apache TLP的大数据相关项目
  • Presto 在字节跳动的应用
  • Presto 在腾讯的使用
  • PrestoCon Day 2021 会议 PPT 下载
  • Data + AI Summit 2021 全部超清 PPT 下载
  • ClickHouse 在实时场景的应用和优化
  • 这些未在 Spark SQL 文档中说明的优化措施,你知道吗?
  • Apache Iceberg 小文件合并原理及实践
  • Learning Spark, 2nd Edition 可以免费下载了
  • 基于 Apache Iceberg 打造 T+0 实时数仓
盘点2021年晋升为Apache TLP的大数据相关项目Presto 在字节跳动的应用Presto 在腾讯的使用PrestoCon Day 2021 会议 PPT 下载Data + AI Summit 2021 全部超清 PPT 下载ClickHouse 在实时场景的应用和优化这些未在 Spark SQL 文档中说明的优化措施,你知道吗?Apache Iceberg 小文件合并原理及实践Learning Spark, 2nd Edition 可以免费下载了基于 Apache Iceberg 打造 T+0 实时数仓
Apache Hop

起源于 Kettle 的新一代数据集成平台 Apache Hop 成为 Apache 顶级项目

起源于 Kettle 的新一代数据集成平台 Apache Hop 成为 Apache 顶级项目
Apache Hop(Hop Orchestration Platform 的首字母缩写)是一种数据编排(data orchestration )和数据工程平台(data engineering platform),旨在促进数据和元数据编制。Hop 可以让我们专注于问题的解决,而不受技术的阻碍。该项目起源于 Kettle,经过数年的重构,并于2020年9月进入 Apache 孵化器;2022年1月18日正式成为 Apache 顶级项目。Hop 允许数据

w397090770   4天前 134℃ 0评论0喜欢

Apache Ambari

Apache 董事会即将终止 Apache Ambari 项目

Apache 董事会即将终止 Apache Ambari 项目
2022年01月10日,来自 Cloudera 的工程师、Apache Ambari PMC 主席 Jayush Luniya 给 Ambari 社区发送了一封名为《[VOTE] Move Apache Ambari to Attic》的邮件:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据邮件内容显示,在过去的两年里,Ambari 只发布了一个版本(2.7.6),大多数提交者(Committer)和 PMC 成员

w397090770   2周前 (01-16) 92℃ 0评论1喜欢

Apache

盘点2021年晋升为Apache TLP的大数据相关项目

盘点2021年晋升为Apache TLP的大数据相关项目
时间过得真快,2021年就过去了,又到了一年总结的时候了。本文将延续之前的惯例来总结一下过去一年大数据相关的项目顺利毕业成 Apache 顶级项目。在2021年一共有四个大数据相关项目顺利毕业成顶级项目,主要是 Apache® DataSketches™、Apache® Gobblin™、Apache® DolphinScheduler™ 以及 Apache® Pinot™;同时有两个项目进入到 Apache 孵化器,

w397090770   3周前 (01-03) 283℃ 0评论2喜欢

Spark

Apache® Gobblin™:开源分布式大数据集成框架

Apache® Gobblin™:开源分布式大数据集成框架
Apache Gobblin 是一个用于流数据和批处理数据生态系统的分布式大数据集成框架。可以简化大数据集成里面的常见问题,比如数据摄取、复制、组织以及生命周期管理等。该项目2014年起源于 LinkedIn,2015年开源,2017年2月进入 Apache 孵化器,2021年02月16日正式毕业成为 Apache 顶级项目。如果想及时了解Spark、Hadoop或者HBase相关的文章,

w397090770   4周前 (01-01) 151℃ 0评论1喜欢

Apache Pinot

Apache® Pinot™:开源分布式实时大数据分析基础设施

Apache® Pinot™:开源分布式实时大数据分析基础设施
Apache Pinot 是一个分布式实时分布式 OLAP 数据存储,旨在以高吞吐量和低延迟提供可扩展的实时分析。该项目最初于 2013 年由 LinkedIn 创建,2015 年开源,于 2018 年 10 月进入 Apache 孵化器,2021年08月02日正式毕业成为 Apache 顶级项目。Apache Pinot 可以直接从流数据源(例如 Apache Kafka 和 Amazon Kinesis)中提取,并使事件可用于即时查询。

w397090770   4周前 (01-01) 94℃ 0评论0喜欢

Presto

Presto在字节跳动的内部实践与优化

Presto在字节跳动的内部实践与优化
引言 在字节跳动内部,Presto 主要支撑了 Ad-hoc 查询、BI 可视化分析、近实时查询分析等场景,日查询量接近 100 万条。 功能性方面 完全兼容 SparkSQL 语法,可以实现用户从 SparkSQL 到 Presto 的无感迁移; 性能方面 实现 Join Reorder,Runtime Filter 等优化,在 TPCDS1T 数据集上性能相对社区版本提升 80.5%; 稳定性方面 首先,实

w397090770   4周前 (12-30) 123℃ 0评论0喜欢

Flink

有赞实时计算 Flink 1.13 升级实践

有赞实时计算 Flink 1.13 升级实践
作者:李闯 郭理想   背景 随着有赞实时计算业务场景全部以Flink SQL的方式接入,对有赞现有的引擎版本—Flink 1.10的SQL能力提出了越来越多无法满足的需求以及可以优化的功能点。目前有赞的Flink SQL是在Yarn上运行,但是在公司应用容器化的背景下,可以统一使用公司K8S资源池,同时考虑到任务之间的隔离性以及任务的弹性

w397090770   4周前 (12-30) 111℃ 0评论0喜欢

Presto

Prestissimo:使 Presto 性能提升三倍

Prestissimo:使 Presto 性能提升三倍
本文资料来自2021年12月09日举办的 PrestoCon 2021,议题为《Updates from the New PrestoDB C++ Execution Engine》,分享者为来自 Ahana 的 Deepak Majeti 以及来自 Intel 的 Dave Cohen, Intel。 本次分享的 PPT 请关注 过往记忆大数据 公众号,并回复 10108 获取。 这篇分享将给大家概述代号为 Prestissimo 项目的相关最新进展。Presti

w397090770   1个月前 (12-27) 165℃ 0评论0喜欢

Spark

精选30个炫酷的数据可视化大屏(含源码),拿走就用!

精选30个炫酷的数据可视化大屏(含源码),拿走就用!
 今天给大家分享30款开源的可视化大屏(含源码)。下载到本地后,直接运行文件夹中的index.html,即可看到大屏。01 数据可视化页面设计有动画效果,显得高大上!主要图表:柱状图、水球图、折线图等。02 数据可视化演示系统不仅有动画效果,还有科技感光效。主要图表:柱状图、折线图、饼图、地图等

zz~~   1个月前 (12-23) 273℃ 0评论0喜欢

Apache Kyuubi

Apache Kyuubi在网易的深度实践

Apache Kyuubi在网易的深度实践
分享的内容主要包括三个内容:1)Kyuubi是什么?介绍Kyuubi的核心功能以及Kyuubi在各个使用场景中的解决方案;2)Kyuubi在网易内部的定位、角色和实际使用场景;3)通过案例分享Kyuubi在实际过程中如何起到作用。Kyuubi是什么开源Kyuubi是网易秉持开源理念的作品。Kyuubi是网易第一款贡献给Apache并进入孵化的开源项目。Kyuubi主要

zz~~   1个月前 (12-23) 130℃ 0评论2喜欢