欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

标签:HDFS

Hadoop

HDFS 2.x 升级 3.x 在车好多的实践

HDFS 2.x 升级 3.x 在车好多的实践
本文来自车好多大数据离线存储团队相关同事的投稿,本文作者: 车好多大数据离线存储团队:冯武、王安迪。升级的背景HDFS 集群作为大数据最核心的组件,在公司承载了DW、AI、Growth 等重要业务数据的存储重任。随着业务的高速发展,数据的成倍增加,HDFS 集群出现了爆炸式的增长,使用率一直处于很高的水位。同时 HDFS文件

w397090770   2个月前 (11-24) 296℃ 0评论2喜欢

Hadoop

HDFS 慢节点监控及处理

HDFS 慢节点监控及处理
HDFS集群随着使用时间的增长,难免会出现一些“性能退化”的节点,主要表现为磁盘读写变慢、网络传输变慢,我们统称这些节点为慢节点。当集群扩大到一定规模,比如上千个节点的集群,慢节点通常是不容易被发现的。大多数时候,慢节点都藏匿于众多健康节点中,只有在客户端频繁访问这些有问题的节点,发现读写变慢了,

w397090770   2个月前 (11-12) 321℃ 0评论3喜欢

HDFS

Ozone:Hadoop 原生分布式对象存储

Ozone:Hadoop 原生分布式对象存储
Hadoop 社区推出了新一代分布式Key-value对象存储系统 Ozone,同时提供对象和文件访问的接口,从构架上解决了长久以来困扰HDFS的小文件问题。本文作为Ozone系列文章的第一篇,抛个砖,介绍Ozone的产生背景,主要架构和功能。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop背景HDFS是业界默认的

w397090770   8个月前 (05-26) 1080℃ 1评论1喜欢

Hadoop

HDFS 归档存储编程指南

HDFS 归档存储编程指南
介绍HDFS 归档存储(Archival Storage)是从 Hadoop 2.6.0 开始引入的(参见 HDFS-6584)。归档存储是一种将增长的存储容量与计算容量解耦的解决方案。我们可以在集群中部署一些具有更高密度、更便宜的存储且提供更低计算能力的节点,并且可以用作集群中的冷数据存储器。根据我们的设置,可以将热数据移到冷存储介质中。通过添加更

w397090770   9个月前 (04-15) 1004℃ 0评论3喜欢

Hadoop

Apache Hadoop 3.x 最新状态以及升级指南

Apache Hadoop 3.x 最新状态以及升级指南
本文来自 2019年9月23日至26日在纽约举办的 Strata Data Conference,分享者是来自 Cloudera 的 Wangda Tan 和 Wei-Chiu Chuang,会议页面 https://conferences.oreilly.com/strata/strata-ny-2019/public/schedule/detail/77506。请关注 过往记忆大数据 微信公众号,并在后台回复 hadoop_3 关键字获取本文的 PPT 下载地址。如果想及时了解Spark、Hadoop或者HBase相关的文章,

w397090770   12个月前 (02-04) 1393℃ 0评论4喜欢

Hadoop

字节跳动 EB 级 HDFS 实践

字节跳动 EB 级 HDFS 实践
HDFS 简介因为 HDFS 这样一个系统已经存在了非常长的时间,应用的场景已经非常成熟了,所以这部分我们会比较简单地介绍。HDFS 全名 Hadoop Distributed File System,是业界使用最广泛的开源分布式文件系统。原理和架构与 Google 的 GFS 基本一致。它的特点主要有以下几项:和本地文件系统一样的目录树视图Append Only 的写入(不支持

w397090770   1年前 (2020-01-10) 1654℃ 0评论4喜欢

Hadoop

Hadoop 2.7 不停服升级到 3.2 在滴滴的实践

Hadoop 2.7 不停服升级到 3.2 在滴滴的实践
为什么要升级在2017年底, Hadoop3.0 发布了,到目前为止, Hadoop 发布的最新版本为3.2.1。在 Hadoop3 中有很多有用的新特性出现,如支持 ErasureCoding、多 NameNode、Standby NameNode read、DataNode Disk Balance、HDFS RBF 等等。除此之外,还有很多性能优化以及 BUG 修复。其中最吸引我们的就是 ErasureCoding 特性,数据可靠性保持不变的情况下可以降

w397090770   1年前 (2020-01-05) 1762℃ 0评论7喜欢

Alluxio

史上最全的大数据学习资源(Awesome Big Data)

史上最全的大数据学习资源(Awesome Big Data)
为了让大家更好地学习交流,过往记忆大数据花了一个周末的时间把 Awesome Big Data 里近 600 个大数据相关的调度、存储、计算、数据库以及可视化等介绍全部翻译了一遍,供大家学习交流。关系型数据库管理系统MySQL 世界上最流行的开源数据库。PostgreSQL 世界上最先进的开源数据库。Oracle Database - 对象关系数据库管理系统。T

w397090770   1年前 (2019-09-23) 9163℃ 0评论25喜欢

Hadoop

Apache Hadoop 的 HDFS federation 前世今生(下)

Apache Hadoop 的 HDFS federation 前世今生(下)
在 《Apache Hadoop 的 HDFS federation 前世今生(上)》 已经介绍了 Hadoop 2.9.0 版本之前 HDFS federation 存在的问题,那么为了解决这个问题,社区采取了什么措施呢?HDFS Router-based FederationViewFs 方案虽然可以很好的解决文件命名空间问题,但是它的实现有以下几个问题:ViewFS 是基于客户端实现的,需要用户在客户端进行相关的配置,那

w397090770   2年前 (2019-07-26) 1366℃ 0评论2喜欢

Hadoop

Apache Hadoop 的 HDFS Federation 前世今生(上)

Apache Hadoop 的 HDFS Federation 前世今生(上)
背景熟悉大数据的人应该都知道,HDFS 是一个分布式文件系统,它是基于谷歌的 GFS 思路实现的开源系统,它的设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的 HDFS 架构中有2个 NameNode 和多个 DataNode 的,如下:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop从

w397090770   2年前 (2019-07-25) 1681℃ 0评论2喜欢