欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

最新发布 第4页

过往记忆专注于大数据技术构架及应用,微信公众号:过往记忆大数据

公众号转载文章

数据湖统一存储在 OPPO 的实践

数据湖统一存储在 OPPO 的实践
分享嘉宾:Xiaochun He OPPO,编辑整理:门君仪 澳洲国立大学 导读:OPPO是一家智能终端制造公司,有着数亿的终端用户,手机 、IoT设备产生的数据源源不断,设备的智能化服务需要我们对这些数据做更深层次的挖掘。海量的数据如何低成本存储、高效利用是大数据部门必须要解决的问题。目前业界流行的解决方案是数据湖,本次

w397090770   3个月前 (02-18) 137℃ 0评论0喜欢

Flink

Flink SQL 在快手的扩展与实践

Flink SQL 在快手的扩展与实践
摘要:本文整理自快手实时计算团队技术专家张静、张芒在 Flink Forward Asia 2021 的分享。主要内容包括: Flink SQL 在快手功能扩展性能优化稳定性提升未来展望 一、Flink SQL 在快手 经过一年多的推广,快手内部用户对 Flink SQL 的认可度逐渐提高,今年新增的 Flink 作业中,SQL 作业达到了 60%,与去年相比有了一倍的提升,峰值吞吐

w397090770   3个月前 (02-18) 180℃ 0评论1喜欢

Apache Doris

Apache Doris 和 ClickHouse 的深度分析

Apache Doris 和 ClickHouse 的深度分析
背景介绍Apache Doris是由百度贡献的开源MPP分析型数据库产品,亚秒级查询响应时间,支持实时数据分析;分布式架构简洁,易于运维,可以支持10PB以上的超大数据集;可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。 ClickHouse 是俄罗斯的搜索公司Yadex开源的MPP架构的分析引

w397090770   3个月前 (02-15) 223℃ 0评论0喜欢

Apache Hop

起源于 Kettle 的新一代数据集成平台 Apache Hop 成为 Apache 顶级项目

起源于 Kettle 的新一代数据集成平台 Apache Hop 成为 Apache 顶级项目
Apache Hop(Hop Orchestration Platform 的首字母缩写)是一种数据编排(data orchestration )和数据工程平台(data engineering platform),旨在促进数据和元数据编制。Hop 可以让我们专注于问题的解决,而不受技术的阻碍。该项目起源于 Kettle,经过数年的重构,并于2020年9月进入 Apache 孵化器;2022年1月18日正式成为 Apache 顶级项目。Hop 允许数据

w397090770   4个月前 (01-22) 760℃ 0评论0喜欢

Apache Ambari

Apache 董事会即将终止 Apache Ambari 项目

Apache 董事会即将终止 Apache Ambari 项目
2022年01月10日,来自 Cloudera 的工程师、Apache Ambari PMC 主席 Jayush Luniya 给 Ambari 社区发送了一封名为《[VOTE] Move Apache Ambari to Attic》的邮件:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据邮件内容显示,在过去的两年里,Ambari 只发布了一个版本(2.7.6),大多数提交者(Committer)和 PMC 成员

w397090770   4个月前 (01-16) 194℃ 0评论1喜欢

Apache

盘点2021年晋升为Apache TLP的大数据相关项目

盘点2021年晋升为Apache TLP的大数据相关项目
时间过得真快,2021年就过去了,又到了一年总结的时候了。本文将延续之前的惯例来总结一下过去一年大数据相关的项目顺利毕业成 Apache 顶级项目。在2021年一共有四个大数据相关项目顺利毕业成顶级项目,主要是 Apache® DataSketches™、Apache® Gobblin™、Apache® DolphinScheduler™ 以及 Apache® Pinot™;同时有两个项目进入到 Apache 孵化器,

w397090770   5个月前 (01-03) 732℃ 0评论2喜欢

Spark

Apache® Gobblin™:开源分布式大数据集成框架

Apache® Gobblin™:开源分布式大数据集成框架
Apache Gobblin 是一个用于流数据和批处理数据生态系统的分布式大数据集成框架。可以简化大数据集成里面的常见问题,比如数据摄取、复制、组织以及生命周期管理等。该项目2014年起源于 LinkedIn,2015年开源,2017年2月进入 Apache 孵化器,2021年02月16日正式毕业成为 Apache 顶级项目。如果想及时了解Spark、Hadoop或者HBase相关的文章,

w397090770   5个月前 (01-01) 461℃ 0评论3喜欢

Apache Pinot

Apache® Pinot™:开源分布式实时大数据分析基础设施

Apache® Pinot™:开源分布式实时大数据分析基础设施
Apache Pinot 是一个分布式实时分布式 OLAP 数据存储,旨在以高吞吐量和低延迟提供可扩展的实时分析。该项目最初于 2013 年由 LinkedIn 创建,2015 年开源,于 2018 年 10 月进入 Apache 孵化器,2021年08月02日正式毕业成为 Apache 顶级项目。Apache Pinot 可以直接从流数据源(例如 Apache Kafka 和 Amazon Kinesis)中提取,并使事件可用于即时查询。

w397090770   5个月前 (01-01) 248℃ 0评论0喜欢

Presto

Presto在字节跳动的内部实践与优化

Presto在字节跳动的内部实践与优化
引言 在字节跳动内部,Presto 主要支撑了 Ad-hoc 查询、BI 可视化分析、近实时查询分析等场景,日查询量接近 100 万条。 功能性方面 完全兼容 SparkSQL 语法,可以实现用户从 SparkSQL 到 Presto 的无感迁移; 性能方面 实现 Join Reorder,Runtime Filter 等优化,在 TPCDS1T 数据集上性能相对社区版本提升 80.5%; 稳定性方面 首先,实

w397090770   5个月前 (12-30) 308℃ 0评论0喜欢

Flink

有赞实时计算 Flink 1.13 升级实践

有赞实时计算 Flink 1.13 升级实践
作者:李闯 郭理想   背景 随着有赞实时计算业务场景全部以Flink SQL的方式接入,对有赞现有的引擎版本—Flink 1.10的SQL能力提出了越来越多无法满足的需求以及可以优化的功能点。目前有赞的Flink SQL是在Yarn上运行,但是在公司应用容器化的背景下,可以统一使用公司K8S资源池,同时考虑到任务之间的隔离性以及任务的弹性

w397090770   5个月前 (12-30) 391℃ 0评论2喜欢