欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

w397090770的文章

Spark

历时一年 Apache Spark 3.3.0 正式发布,新特性详解

历时一年 Apache Spark 3.3.0 正式发布,新特性详解
Apache Spark 3.3.0 从2021年07月03日正式开发,历时近一年,终于在2022年06月16日正式发布,在 Databricks Runtime 11.0 也同步发布。这个版本一共解决了 1600 个 ISSUE,感谢 Apache Spark 社区为 Spark 3.3 版本做出的宝贵贡献。根据经验,这个版本应该不是稳定版,想在线上环境使用的小伙伴们可以再等等。如果想及时了解Spark、Hadoop或者HBase相关

  1年前 (2022-06-18) 1410℃ 0评论2喜欢

Apache Ambari

失去才懂珍惜,Apache Ambari 项目即将重启,再次进入 Apache 孵化器

失去才懂珍惜,Apache Ambari 项目即将重启,再次进入 Apache 孵化器
今年的1月份,Cloudera 的工程师、Apache Ambari PMC 主席 Jayush Luniya 曾经给社区发了一份提议将 Apache Ambari 一定 Attic 的邮件。原因是在过去的两年里,Ambari 只发布了一个版本(2.7.6),大多数提交者(Committer)和 PMC 成员都没有积极参与到这个项目中来。按照 Apache 的项目生命周期(https://attic.apache.org/process.html),其应该是 reached its end of

  1年前 (2022-06-12) 707℃ 0评论0喜欢

Presto

Starburst 性能白皮书一 - Presto CBO 优化

Starburst 性能白皮书一 - Presto CBO 优化
Depending on the complexity of your SQL query there are many, often exponential, query plans that return the same result. However, the performance of each plan can vary drastically; taking only seconds to finish or days given the chosen plan.That places a significant burden on analysts who will then have to know how to write performant SQL. This problem gets worse as the complexity of questions and SQL queries increases. In the abse

  1年前 (2022-04-20) 433℃ 0评论1喜欢

Presto

Starburst 性能白皮书二 - Presto 基于 Connecter 的性能提升

Starburst 性能白皮书二 - Presto 基于 Connecter 的性能提升
Starburst provides connectors to the most popular data sources included in many of these connectors are a number of exclusive enhancements. Many of Starburst’s connectors when compared with open source Trino have enhanced extensions such as parallelism, pushdown and table statistics, that drastically improve the overall performance. Parallelism distributes query processing across workers, and uses many connections to the data source a

  1年前 (2022-04-15) 421℃ 0评论0喜欢

Presto

Starburst 性能白皮书三 - Presto Dynamic Filtering

Starburst 性能白皮书三 - Presto Dynamic Filtering
Dynamic filtering optimizations significantly improve the performance of queries with selective joins by avoiding reading of data that would be filtered by join condition. In this respect, dynamic filtering is similar to join pushdown discussed above, however it is the equivalent of inner join pushdown across data sources. As a consequence we derive the performance benefits associated with selective joins when performing federated queri

  1年前 (2022-04-15) 258℃ 0评论0喜欢

Presto

Presto 在 B 站的实践

Presto 在 B 站的实践
架构B站SQL On Hadoop 整体架构在介绍Presto在B站的实践之前,先从整体来看看SQL在B站的使用情况,在B站的离线平台,核心由三大计算引擎Presto、Spark、Hive以及分布式存储系统HDFS和调度系统Yarn组成。如下架构图所示,我们的ADHOC、BI、DQC以及数据探查等服务都是通过自研的Dispatcher路由服务来进行统一SQL调度,Dispatcher会结合查询

  1年前 (2022-04-14) 1463℃ 0评论2喜欢

Presto

Trino Summit 2021 会议视频和 PPT 下载

Trino Summit 2021 会议视频和 PPT 下载
Trino Summit 2021 由 Starburst 于 2021年10月21日-22日通过线上的方式进行。主要分享嘉宾有 Trino 的几个创始人、Apache Iceberg 的创建者 Ryan Blue 以及来自 DoorDash 的 Akshat Nair 和 Satya Boora 等。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop主要分享议题State of TrinoFast results using Iceberg and TrinoThe Future of

  1年前 (2022-04-12) 298℃ 0评论0喜欢

YARN

Apache YARN 在 B 站的优化实践

Apache YARN 在 B 站的优化实践
背景 B站的YARN以社区的2.8.4分支构建,采用CapacityScheduler作为调度器, 期间进行过多次核心功能改造,目前支撑了B站的离线业务、实时业务以及部分AI训练任务。2020年以来,随着B站业务规模的迅速增长,集群总规模达到8k左右,其中单集群规模已经达到4k+ ,日均Application(下文简称App)数量在20w到30w左右。当前最大单集群整体cpu

  1年前 (2022-04-11) 522℃ 0评论1喜欢

Alluxio

在 Presto 中使用一致性哈希来改善动态集群的缓存命中率

在 Presto 中使用一致性哈希来改善动态集群的缓存命中率
R目前,越来越多的用户开始在 Presto 里面使用 Alluxio,它通过利用 SSD 或内存在 Presto workers 上缓存热数据集,避免从远程存储读取数据。 Presto 支持基于哈希的软亲和调度(hash-based soft affinity scheduling),强制在整个集群中只缓存一到两份相同的数据,通过允许本地缓存更多的热数据来提高缓存效率。 但是,当前使用的哈希算法在集

  2年前 (2022-04-01) 294℃ 0评论0喜欢

Hadoop

HDFS 在 B 站的探索和实践

HDFS 在 B 站的探索和实践
HDFS 架构介绍 HDFS离线存储平台是Hadoop大数据计算的底层架构,在B站应用已经超过5年的时间。经过多年的发展,HDFS存储平台目前已经发展成为总存储数据量近EB级,元数据总量近百亿级,NameSpace 数量近20组,节点数量近万台,日均吞吐几十PB数据量的大型分布式文件存储系统。 首先我们来介绍一下B站的HDFS离线存储平台的总体架

  2年前 (2022-04-01) 822℃ 0评论3喜欢