分类：公众号转载文章

主要转载一些比较好的大数据相关技术文章。

Presto 在 B 站的实践

架构B站SQL On Hadoop 整体架构在介绍Presto在B站的实践之前，先从整体来看看SQL在B站的使用情况，在B站的离线平台，核心由三大计算引擎Presto、Spark、Hive以及分布式存储系统HDFS和调度系统Yarn组成。如下架构图所示，我们的ADHOC、BI、DQC以及数据探查等服务都是通过自研的Dispatcher路由服务来进行统一SQL调度，Dispatcher会结合查询

w397090770 3年前 (2022-04-14) 1929℃ 0评论4喜欢

ClickHouse 在网易的实践

ClickHouse作为一款开源列式数据库管理系统（DBMS）近年来备受关注，主要用于数据分析（OLAP）领域。作者根据以往经验和遇到的问题，总结出一些基本的开发和使用规范，以供使用者参考。随着公司业务数据量日益增长，数据处理场景日趋复杂，急需一种具有高可用性和高性能的数据库来支持业务发展，ClickHouse是俄罗斯的搜索公

w397090770 3年前 (2022-03-10) 1708℃ 0评论1喜欢

Apache Doris 向量化设计与实现

导读：向量化技术带来极致的CPU效率的同时，也已经成为了软件开发的趋势，而数据库的向量化不仅仅是 CPU 指令的向量化，还是一个巨大的性能优化工程。本文从CPU向量化原理出发，通过Cache、虚函数、SIMD等方面讨论CPU的性能优化，介绍了Apache Doris现有列存行式计算结构向列存列式计算结构的转变，同时展示了目前Apache D

w397090770 3年前 (2022-03-01) 1258℃ 0评论3喜欢

一文理解实时数据仓库的演进

数据处理现状：当前基于Hive的离线数据仓库已经非常成熟，数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀，业界最近几年就一直聚焦并探索于两个相关的热点问题：实时数仓建设和大数据架构的批流一体建设。实时数仓建设：实时数仓1.0 传统

w397090770 3年前 (2022-02-18) 780℃ 0评论2喜欢

数据湖统一存储在 OPPO 的实践

分享嘉宾：Xiaochun He OPPO，编辑整理：门君仪澳洲国立大学导读：OPPO是一家智能终端制造公司，有着数亿的终端用户，手机、IoT设备产生的数据源源不断，设备的智能化服务需要我们对这些数据做更深层次的挖掘。海量的数据如何低成本存储、高效利用是大数据部门必须要解决的问题。目前业界流行的解决方案是数据湖，本次

w397090770 3年前 (2022-02-18) 433℃ 0评论2喜欢

Flink SQL 在快手的扩展与实践

摘要：本文整理自快手实时计算团队技术专家张静、张芒在 Flink Forward Asia 2021 的分享。主要内容包括： Flink SQL 在快手功能扩展性能优化稳定性提升未来展望一、Flink SQL 在快手经过一年多的推广，快手内部用户对 Flink SQL 的认可度逐渐提高，今年新增的 Flink 作业中，SQL 作业达到了 60%，与去年相比有了一倍的提升，峰值吞吐

w397090770 3年前 (2022-02-18) 1066℃ 0评论4喜欢

引言在字节跳动内部，Presto 主要支撑了 Ad-hoc 查询、BI 可视化分析、近实时查询分析等场景，日查询量接近 100 万条。功能性方面完全兼容 SparkSQL 语法，可以实现用户从 SparkSQL 到 Presto 的无感迁移；性能方面实现 Join Reorder，Runtime Filter 等优化，在 TPCDS1T 数据集上性能相对社区版本提升 80.5%；稳定性方面首先，实

w397090770 3年前 (2021-12-30) 720℃ 0评论1喜欢

有赞实时计算 Flink 1.13 升级实践

作者:李闯郭理想背景随着有赞实时计算业务场景全部以Flink SQL的方式接入，对有赞现有的引擎版本—Flink 1.10的SQL能力提出了越来越多无法满足的需求以及可以优化的功能点。目前有赞的Flink SQL是在Yarn上运行，但是在公司应用容器化的背景下，可以统一使用公司K8S资源池，同时考虑到任务之间的隔离性以及任务的弹性

w397090770 3年前 (2021-12-30) 1103℃ 0评论6喜欢

京东 ClickHouse 高可用实践

导读：京东OLAP采取ClickHouse为主Doris为辅的策略，有3000台服务器，每天亿次查询万亿条数据写入，广泛服务于各个应用场景，经过历次大促考验，提供了稳定的服务。本文介绍了ClickHouse在京东的高可用实践，包括选型过程、集群部署、高可用架构、问题和规划。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公共帐

w397090770 3年前 (2021-09-03) 776℃ 0评论0喜欢

Presto 在美图的实践

导读：本文的主题是Presto高性能引擎在美图的实践，首先将介绍美图在处理ad-hoc场景下为何选择Presto，其次我们如何通过外部组件对Presto高可用与稳定性的增强。然后介绍在美图业务中如何做到合理与高效的利用集群资源，最后如何利用Presto应用于部分离线计算场景中。使大家了解Presto引擎的优缺点，适合的使用场景，以及在美图

w397090770 3年前 (2021-09-01) 815℃ 0评论1喜欢

1
2
3
4
下一页
共 4 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据