欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

标签:公众号转载文章

ClickHouse

ClickHouse 在实时场景的应用和优化

ClickHouse 在实时场景的应用和优化
讲师:郭映中 字节跳动 ClickHouse 研发工程师此次分享分为三部分内容,第一部分通过讲解推荐和广告业务的两个典型案例,穿插介绍字节内部相应的改进。第二部分会介绍典型案例中未覆盖到的改进和经验。第三部分会提出目前的不足和未来的改进计划。早期实践如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注

w397090770   1个月前 (03-05) 789℃ 0评论2喜欢

hudi

Apache Hudi Clustering 数据布局功能介绍

Apache Hudi Clustering 数据布局功能介绍
背景Apache Hudi将流处理带到大数据,相比传统批处理效率高一个数量级,提供了更新鲜的数据。在数据湖/仓库中,需要在摄取速度和查询性能之间进行权衡,数据摄取通常更喜欢小文件以改善并行性并使数据尽快可用于查询,但很多小文件会导致查询性能下降。在摄取过程中通常会根据时间在同一位置放置数据,但如果把查询频

w397090770   2个月前 (02-24) 249℃ 0评论1喜欢

Hadoop

蚂蚁绊倒大象?不起眼的小文件竟拖了Hadoop大佬的后腿

蚂蚁绊倒大象?不起眼的小文件竟拖了Hadoop大佬的后腿
在使用Hadoop过程中,小文件是一种比较常见的挑战,如果不小心处理,可能会带来一系列的问题。HDFS是为了存储和处理大数据集(M以上)而开发的,大量小文件会导致Namenode内存利用率和RPC调用效率低下,block扫描吞吐量下降,应用层性能降低。通过本文,我们将定义小文件存储的问题,并探讨如何对小文件进行治理。什么是小

w397090770   2个月前 (02-24) 301℃ 0评论1喜欢

Hive

Hive SQL 迁移 Spark SQL 在滴滴的实践

Hive SQL 迁移 Spark SQL 在滴滴的实践
桔妹导读:在滴滴SQL任务从Hive迁移到Spark后,Spark SQL任务占比提升至85%,任务运行时间节省40%,运行任务需要的计算资源节省21%,内存资源节省49%。在迁移过程中我们沉淀出一套迁移流程, 并且发现并解决了两个引擎在语法,UDF,性能和功能方面的差异。迁移背景Spark自从2010年面世,到2020年已经经过十年的发展,现在已经发展

w397090770   2个月前 (01-28) 603℃ 0评论6喜欢

ClickHouse

Clickhouse 在58的实践之路

Clickhouse 在58的实践之路
在数据量日益增长的当下,传统数据库的查询性能已满足不了我们的业务需求。而Clickhouse在OLAP领域的快速崛起引起了我们的注意,于是我们引入Clickhouse并不断优化系统性能,提供高可用集群环境。本文主要讲述如何通过Clickhouse结合大数据生态来定制一套完善的数据分析方案、如何打造完备的运维管理平台以降低维护成本,并结合具

w397090770   3个月前 (01-22) 574℃ 0评论0喜欢

Apache Doris

Apache Doris 在京东搜索实时 OLAP 中的应用实践

Apache Doris 在京东搜索实时 OLAP 中的应用实践
前言本文讨论了京东搜索在实时流量数据分析方面,利用Apache Flink和Apache Doris进行的探索和实践。流式计算在近些年的热度与日俱增,从Google Dataflow论文的发表,到Apache Flink计算引擎逐渐站到舞台中央,再到Apache Druid等实时分析型数据库的广泛应用,流式计算引擎百花齐放。但不同的业务场景,面临着不同的问题,没有哪一种引

w397090770   4个月前 (12-25) 443℃ 0评论1喜欢

Spark

贝壳一站式大数据开发平台实践

贝壳一站式大数据开发平台实践
本文根据贝壳找房资深工程师仰宗强老师在2020年"面向AI技术的工程架构实践"大会上的演讲速记整理而成。1 开场大家下午好,很荣幸来到这跟大家一起分享贝壳一站式大数据开发平台的落地实践。今天的分享主要分为以下四个部分:贝壳的数据业务背景。数据开发平台探索历程。数据开发平台的整体情况介绍未来规划与

w397090770   5个月前 (11-25) 805℃ 0评论4喜欢

Hadoop

HDFS 慢节点监控及处理

HDFS 慢节点监控及处理
HDFS集群随着使用时间的增长,难免会出现一些“性能退化”的节点,主要表现为磁盘读写变慢、网络传输变慢,我们统称这些节点为慢节点。当集群扩大到一定规模,比如上千个节点的集群,慢节点通常是不容易被发现的。大多数时候,慢节点都藏匿于众多健康节点中,只有在客户端频繁访问这些有问题的节点,发现读写变慢了,

w397090770   5个月前 (11-12) 474℃ 0评论4喜欢

Presto

Presto 在滴滴的探索与实践

Presto 在滴滴的探索与实践
Presto在滴滴内部发展三年,已经成为滴滴内部Ad-Hoc和Hive SQL加速的首选引擎。目前服务6K+用户,每天读取2PB ~ 3PB HDFS数据,处理30万亿~35万亿条记录,为了承接业务及丰富使用场景,滴滴Presto需要解决稳定性、易用性、性能、成本等诸多问题。我们在3年多的时间里,做了大量优化和二次开发,积攒了非常丰富的经验。本文分享了滴滴

w397090770   6个月前 (10-21) 551℃ 0评论4喜欢

ClickHouse

QQ音乐PB级ClickHouse实时数据平台架构演进之路

QQ音乐PB级ClickHouse实时数据平台架构演进之路
OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值。本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾讯云EMR产品深度合作的案例解读,还原一个不一样的大数据云端解决方案。一、背景介绍QQ音乐是腾讯音乐旗下一款领先的音乐流媒体产品,平台打造了“听

w397090770   6个月前 (10-21) 666℃ 0评论0喜欢