Monarch 是 Pinterest 的批处理平台,由30多个 Hadoop YARN 集群组成,其中17k+节点完全建立在 AWS EC2 之上。2021年初,Monarch 还在使用五年前的 Hadoop 2.7.1。由于同步社区分支(特性和bug修复)的复杂性不断增加,我们决定是时候进行版本升级了。我们最终选择了Hadoop ...... w397090770 3年前 (2022-08-12) 683℃ 0评论4喜欢
架构B站SQL On Hadoop 整体架构在介绍Presto在B站的实践之前,先从整体来看看SQL在B站的使用情况,在B站的离线平台,核心由三大计算引擎Presto、Spark、Hive以及分布式存储系统HDFS和调度系统Yarn组成。如下架构图所示,我们的ADHOC、BI、DQC以及数据探查等服务都是通过...... w397090770 3年前 (2022-04-14) 2004℃ 0评论4喜欢
HDFS 架构介绍HDFS离线存储平台是Hadoop大数据计算的底层架构,在B站应用已经超过5年的时间。经过多年的发展,HDFS存储平台目前已经发展成为总存储数据量近EB级,元数据总量近百亿级,NameSpace 数量近20组,节点数量近万台,日均吞吐几十PB数据量的大型分布式文件存储系统...... w397090770 3年前 (2022-04-01) 1239℃ 0评论4喜欢
摘要:本文是来自米哈游大数据部对于Flink在米哈游应用及实践的分享。本篇内容主要分为四个部分:1.背景介绍2.实时平台建设3.实时数仓和数据湖探索4.未来发展与展望作者:实时计算负责人 张剑背景介绍米哈游成立于2011年,致力于为用户提供美好的、超出预期的产品...... w397090770 3年前 (2022-03-21) 1845℃ 1评论6喜欢
时间过得真快,2021年就过去了,又到了一年总结的时候了。本文将延续之前的惯例来总结一下过去一年大数据相关的项目顺利毕业成 Apache 顶级项目。在2021年一共有四个大数据相关项目顺利毕业成顶级项目,主要是 Apache® DataSketches™、Apache® Gobblin™、Apache® DolphinSch...... w397090770 4年前 (2022-01-03) 1575℃ 0评论6喜欢
作者:李闯 郭理想 背景随着有赞实时计算业务场景全部以Flink SQL的方式接入,对有赞现有的引擎版本—Flink 1.10的SQL能力提出了越来越多无法满足的需求以及可以优化的功能点。目前有赞的Flink SQL是在Yarn上运行,但是在公司应用容器化的背景下,可以统一使用...... w397090770 4年前 (2021-12-30) 1139℃ 0评论7喜欢
分享的内容主要包括三个内容:1)Kyuubi是什么?介绍Kyuubi的核心功能以及Kyuubi在各个使用场景中的解决方案;2)Kyuubi在网易内部的定位、角色和实际使用场景;3)通过案例分享Kyuubi在实际过程中如何起到作用。Kyuubi是什么开源Kyuubi是网易秉持开源理念的作品。Kyuubi...... zz~~ 4年前 (2021-12-23) 2553℃ 0评论4喜欢
Linux(vi/vim)一般模式语法功能描述yy复制光标当前一行y数字y复制一段(从第几行到第几行)p箭头移动到目的行粘贴u撤销上一步dd删除光标当前行d数字d删除光标(含)后多少行x删除一个字母,相当于delX删除一个字母,相当于Backs...... zz~~ 4年前 (2021-12-01) 202℃ 0评论0喜欢
背景随着公司这两年业务的迅速扩增,业务数据量和数据处理需求也是呈几何式增长,这对底层的存储和计算等基础设施建设提出了较高的要求。本文围绕计算集群资源使用和资源调度展开,将带大家了解集群资源调度的整体过程、面临的问题,以及我们在底层所做的一系列开发优化工...... zz~~ 4年前 (2021-11-16) 615℃ 0评论0喜欢
背景随着同程旅行业务和数据规模越来越大,原有的机房不足以支撑未来几年的扩容需求,同时老机房的保障优先级也低于新机房。为了不受限于机房的压力,公司决定进行机房迁移。为了尽快完成迁移,需要1个月内完成上百PB数据量的集群迁移,迁移过程不允许停止服务。目前HAD...... zz~~ 4年前 (2021-11-16) 708℃ 0评论1喜欢