欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

标签:HDFS

Hadoop

Uber 是如何提高 HDFS I/O 利用率的

Uber 是如何提高 HDFS I/O 利用率的
以较低的硬件成本扩展我们的数据基础设施,同时保持高性能和服务可靠性并非易事。 为了适应 Uber 数据存储和分析计算的指数级增长,数据基础设施团队通过结合硬件重新设计软件层,以扩展 Apache Hadoop® HDFS :HDFS Federation、Warm Storage、YARN 在 HDFS 数据节点上共存,以及 YARN 利用率的提高提高了系统的 CPU 和内存使用效率将多

w397090770   3个月前 (10-21) 154℃ 0评论0喜欢

Hadoop

字节跳动十万节点 HDFS 集群多机房架构演进之路

字节跳动十万节点 HDFS 集群多机房架构演进之路
背景 现状 HDFS 全称是 Hadoop Distributed File System,其本身是 Apache Hadoop 项目的一个模块,作为大数据存储的基石提供高吞吐的海量数据存储能力。自从 2006 年 4 月份发布以来,HDFS 目前依然有着非常广泛的应用,以字节跳动为例,随着公司业务的高速发展,目前 HDFS 服务的规模已经到达“双 10”的级别: 单集群节点 10 万台级别单

w397090770   6个月前 (07-29) 19℃ 0评论0喜欢

Hadoop

HDFS RBF 在车好多的应用

HDFS RBF 在车好多的应用
背景随着集群规模的不断扩张,文件数快速增长,目前集群的文件数已高达2.7亿,这带来了许多问题与挑战。首先是文件目录树的扩大导致的NameNode的堆内存持续上涨,其次是Full GC时间越来越长,导致NameNode宕机越发频繁。此外,受堆内存的影响,RPC延时也越来越高。针对上述问题,我们做了一些相关工作:控制文件数增长

w397090770   7个月前 (07-02) 455℃ 0评论2喜欢

Hadoop

HDFS 2.x 升级 3.x 在车好多的实践

HDFS 2.x 升级 3.x 在车好多的实践
本文来自车好多大数据离线存储团队相关同事的投稿,本文作者: 车好多大数据离线存储团队:冯武、王安迪。升级的背景HDFS 集群作为大数据最核心的组件,在公司承载了DW、AI、Growth 等重要业务数据的存储重任。随着业务的高速发展,数据的成倍增加,HDFS 集群出现了爆炸式的增长,使用率一直处于很高的水位。同时 HDFS文件

w397090770   1年前 (2020-11-24) 819℃ 0评论2喜欢

Hadoop

HDFS 慢节点监控及处理

HDFS 慢节点监控及处理
HDFS集群随着使用时间的增长,难免会出现一些“性能退化”的节点,主要表现为磁盘读写变慢、网络传输变慢,我们统称这些节点为慢节点。当集群扩大到一定规模,比如上千个节点的集群,慢节点通常是不容易被发现的。大多数时候,慢节点都藏匿于众多健康节点中,只有在客户端频繁访问这些有问题的节点,发现读写变慢了,

w397090770   1年前 (2020-11-12) 869℃ 0评论7喜欢

HDFS

Ozone:Hadoop 原生分布式对象存储

Ozone:Hadoop 原生分布式对象存储
Hadoop 社区推出了新一代分布式Key-value对象存储系统 Ozone,同时提供对象和文件访问的接口,从构架上解决了长久以来困扰HDFS的小文件问题。本文作为Ozone系列文章的第一篇,抛个砖,介绍Ozone的产生背景,主要架构和功能。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop背景HDFS是业界默认的

w397090770   2年前 (2020-05-26) 1536℃ 1评论1喜欢

Hadoop

HDFS 归档存储编程指南

HDFS 归档存储编程指南
介绍HDFS 归档存储(Archival Storage)是从 Hadoop 2.6.0 开始引入的(参见 HDFS-6584)。归档存储是一种将增长的存储容量与计算容量解耦的解决方案。我们可以在集群中部署一些具有更高密度、更便宜的存储且提供更低计算能力的节点,并且可以用作集群中的冷数据存储器。根据我们的设置,可以将热数据移到冷存储介质中。通过添加更

w397090770   2年前 (2020-04-15) 1426℃ 0评论3喜欢

Hadoop

Apache Hadoop 3.x 最新状态以及升级指南

Apache Hadoop 3.x 最新状态以及升级指南
本文来自 2019年9月23日至26日在纽约举办的 Strata Data Conference,分享者是来自 Cloudera 的 Wangda Tan 和 Wei-Chiu Chuang,会议页面 https://conferences.oreilly.com/strata/strata-ny-2019/public/schedule/detail/77506。请关注 过往记忆大数据 微信公众号,并在后台回复 hadoop_3 关键字获取本文的 PPT 下载地址。如果想及时了解Spark、Hadoop或者HBase相关的文章,

w397090770   2年前 (2020-02-04) 1728℃ 2评论5喜欢

Hadoop

字节跳动 EB 级 HDFS 实践

字节跳动 EB 级 HDFS 实践
HDFS 简介因为 HDFS 这样一个系统已经存在了非常长的时间,应用的场景已经非常成熟了,所以这部分我们会比较简单地介绍。HDFS 全名 Hadoop Distributed File System,是业界使用最广泛的开源分布式文件系统。原理和架构与 Google 的 GFS 基本一致。它的特点主要有以下几项:和本地文件系统一样的目录树视图Append Only 的写入(不支持

w397090770   2年前 (2020-01-10) 2060℃ 0评论4喜欢

Hadoop

Hadoop 2.7 不停服升级到 3.2 在滴滴的实践

Hadoop 2.7 不停服升级到 3.2 在滴滴的实践
为什么要升级在2017年底, Hadoop3.0 发布了,到目前为止, Hadoop 发布的最新版本为3.2.1。在 Hadoop3 中有很多有用的新特性出现,如支持 ErasureCoding、多 NameNode、Standby NameNode read、DataNode Disk Balance、HDFS RBF 等等。除此之外,还有很多性能优化以及 BUG 修复。其中最吸引我们的就是 ErasureCoding 特性,数据可靠性保持不变的情况下可以降

w397090770   2年前 (2020-01-05) 2333℃ 0评论9喜欢