欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

w397090770的文章

Alluxio

在 Presto 中使用一致性哈希来改善动态集群的缓存命中率

在 Presto 中使用一致性哈希来改善动态集群的缓存命中率
R目前,越来越多的用户开始在 Presto 里面使用 Alluxio,它通过利用 SSD 或内存在 Presto workers 上缓存热数据集,避免从远程存储读取数据。 Presto 支持基于哈希的软亲和调度(hash-based soft affinity scheduling),强制在整个集群中只缓存一到两份相同的数据,通过允许本地缓存更多的热数据来提高缓存效率。 但是,当前使用的哈希算法在集

  2年前 (2022-04-01) 361℃ 0评论0喜欢

Hadoop

HDFS 在 B 站的探索和实践

HDFS 在 B 站的探索和实践
HDFS 架构介绍 HDFS离线存储平台是Hadoop大数据计算的底层架构,在B站应用已经超过5年的时间。经过多年的发展,HDFS存储平台目前已经发展成为总存储数据量近EB级,元数据总量近百亿级,NameSpace 数量近20组,节点数量近万台,日均吞吐几十PB数据量的大型分布式文件存储系统。 首先我们来介绍一下B站的HDFS离线存储平台的总体架

  2年前 (2022-04-01) 949℃ 0评论3喜欢

Java

Java8 IntStream、LongStream 以及 DoubleStream 介绍

Java8 IntStream、LongStream 以及 DoubleStream 介绍
本章节我们提供一些 Java 8 中的 IntStream、LongStream 和 DoubleStream 使用范例。IntStream、LongStream 和 DoubleStream 分别表示原始 int 流、 原始 long 流 和 原始 double 流。这三个原始流类提供了大量的方法用于操作流中的数据,同时提供了相应的静态方法来初始化它们自己。这三个原始流类都在 java.util.stream 命名空间下。java.util.stream.Int

  2年前 (2022-03-31) 127℃ 0评论0喜欢

Java

Java8 收集器 - java.util.stream.Collectors

Java8 收集器 - java.util.stream.Collectors
Java 8 流的新类 java.util.stream.Collectors 实现了 java.util.stream.Collector 接口,同时又提供了大量的方法对流 ( stream ) 的元素执行 map and reduce 操作,或者统计操作。本章节,我们就来看看那些常用的方法,顺便写几个示例练练手。Collectors.averagingDouble()Collectors.averagingDouble() 方法将流中的所有元素视为 double 类型并计算他们的平均值

  2年前 (2022-03-31) 137℃ 0评论0喜欢

Alluxio

Alluxio 对 Presto 的查询性能加速测试报告

Alluxio 对 Presto 的查询性能加速测试报告
金山云-企业云团队(赵侃、李金辉)在交互查询场景下对Presto与Alluxio相结合进行了一系列测试,并总结了一些Presto搭配Alluxio使用的建议。本次测试未使用对象存储,计算引擎与存储间的网络延时也比较低。如果存储IO耗时和网络耗时较大时,Alluxio加速收益应会更明显。测试目的验证影响Alluxio加速收益的各种因素记录Alluxio

  2年前 (2022-03-29) 678℃ 0评论1喜欢

常用工具

如何在 mac 系统上安装 thrift

如何在 mac 系统上安装 thrift
Thrift 最初由Facebook开发,目前已经开源到Apache,已广泛应用于业界。Thrift 正如其官方主页介绍的,“是一种可扩展、跨语言的服务开发框架”。简而言之,它主要用于各个服务之间的RPC通信,其服务端和客户端可以用不同的语言来开发。只需要依照IDL(Interface Description Language)定义一次接口,Thrift工具就能自动生成 C++, Java, Python, PH

  2年前 (2022-03-29) 1604℃ 0评论0喜欢

Kafka

Kafka: The Definitive Guide, 2nd Edition 下载

Kafka: The Definitive Guide, 2nd Edition 下载
《Kafka: The Definitive Guide, 2nd Edition》于 2021年11月由 O'Reilly Media 出版, ISBN 为 9781492043089 ,全书 486 页。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop图书介绍Every enterprise application creates data, whether it consists of log messages, metrics, user activity, or outgoing messages. Moving all this data is just as important as the

  2年前 (2022-03-22) 982℃ 0评论3喜欢

Apache Pulsar

Mastering Apache Pulsar 下载

Mastering Apache Pulsar 下载
《Mastering Apache Pulsar》于 2021年12月由 O'Reilly Media 出版, ISBN 为 9781492084907 ,全书 227 页。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop图书介绍Every enterprise application creates data, including log messages, metrics, user activity, and outgoing messages. Learning how to move these items is almost as important as the data itself. If

  2年前 (2022-03-22) 402℃ 0评论0喜欢

Flink

Apache Flink 在米哈游的落地实践

Apache Flink 在米哈游的落地实践
摘要:本文是来自米哈游大数据部对于Flink在米哈游应用及实践的分享。 本篇内容主要分为四个部分: 1.背景介绍 2.实时平台建设 3.实时数仓和数据湖探索 4.未来发展与展望 作者:实时计算负责人 张剑 背景介绍 米哈游成立于2011年,致力于为用户提供美好的、超出预期的产品与内容。公司陆续推出了

  2年前 (2022-03-21) 1396℃ 1评论4喜欢

Alluxio

Presto Alluxio Local Cache 监控指南

Presto Alluxio Local Cache 监控指南
什么是 Alluxio Local Cache随着云计算在基础设施领域的市场份额持续上升,主流数据分析引擎纷纷选择独立扩展存储、计算来适配云基础设施,并以此为云提供商降低成本。但是,存储计算分离也为查询延迟带来了新的挑战,因为当网络饱和时,通过网络扫描大量数据将受到 IO 限制。此外,元数据也面临远程网络来检索的性能问题。

  2年前 (2022-03-21) 625℃ 0评论2喜欢