欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

有关【Hadoop】的内容

Guava

网络速率限制以及 Guava 的 RateLimiter

网络速率限制以及 Guava 的 RateLimiter
在互联网网络中,当网络发生拥塞(congestion)时,交换机将开始丢弃数据包。这可能导致数据重发(retransmissions)、数据包查询(query packets),这些操作将进一步导致网络的拥塞。为了防止网络拥塞(network congestion),需限制流出网络的流量,使流量以比较均匀的速......

w397090770   7年前 (2018-06-04) 3421℃ 0评论4喜欢

Spark

Spark Streaming 反压(Back Pressure)机制介绍

Spark Streaming 反压(Back Pressure)机制介绍
背景在默认情况下,Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time > batch interval 的时候,也就是每个批次数据处理的时间要比 Spark Streaming 批处理间隔时间长;越来越多的数据被接收,但是数据的处......

w397090770   7年前 (2018-05-28) 28261℃ 409评论62喜欢

Flink

Apache Flink 1.5.0 正式发布,多项重要更新

Apache Flink 1.5.0 正式发布,多项重要更新
Apache Flink 1.5.0 于昨天晚上正式发布了。在过去五个月的时间里,Flink 社区共解决了超过 780 个 issues。完整的 changelog 看这里: https://issues.apache.org/jira/secure/ReleaseNote.jspa?version=12341764&projectId=12315522。如果想及时了解Spark、Hadoop或者Hba......

w397090770   7年前 (2018-05-26) 3147℃ 0评论12喜欢

常用工具

在 Shell 中下载 ftp 文件的几种方法

在 Shell 中下载 ftp 文件的几种方法
FTP 是 File Transfer Protocol(文件传输协议)的英文简称,而中文简称为“文传协议”。用于 Internet 上的控制文件的双向传输。同时,它也是一个应用程序(Application)。基于不同的操作系统有不同的 FTP 应用程序,而所有这些应用程序都遵守同一种协议以传输文件。在 FTP ......

w397090770   7年前 (2018-05-23) 5331℃ 0评论7喜欢

Hadoop

HDFS 块和 Input Splits 的区别与联系(源码版)

HDFS 块和 Input Splits 的区别与联系(源码版)
在 《HDFS 块和 Input Splits 的区别与联系》 文章中介绍了HDFS 块和 Input Splits 的区别与联系,其中并没有涉及到源码级别的描述。为了补充这部分,这篇文章将列出相关的源码进行说明。看源码可能会比直接看文字容易理解,毕竟代码说明一切。为了简便起见,这里只描述 Te......

w397090770   7年前 (2018-05-16) 2422℃ 0评论19喜欢

Hadoop

HDFS 块和 Input Splits 的区别与联系

HDFS 块和 Input Splits 的区别与联系
相信大家都知道,HDFS 将文件按照一定大小的块进行切割,(我们可以通过 dfs.blocksize 参数来设置 HDFS 块的大小,在 Hadoop 2.x 上,默认的块大小为 128MB。)也就是说,如果一个文件大小大于 128MB,那么这个文件会被切割成很多块,这些块分别存储在不同的机器上。当我们......

w397090770   7年前 (2018-05-16) 2746℃ 4评论28喜欢

Kafka

Spring Boot 中读写 Kafka header 信息

Spring Boot 中读写 Kafka header 信息
Apache Kafka 从 0.11.0.0 版本开始支持在消息中添加 header 信息,具体参见 KAFKA-4208。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop本文将介绍如何使用 spring-kafka 在 Kafka Message 中添加或者读取自定义 headers。本文使......

w397090770   7年前 (2018-05-13) 5017℃ 0评论0喜欢

Flink

杭州第六次 Spark & Flink Meetup 资料分享

杭州第六次 Spark & Flink Meetup 资料分享
杭州第六次 Spark & Flink Meetup 于2018年05月12日在华为杭研所1号楼1楼报告厅进行。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop议题本次会议的议题如下:冯叶磊 - 华为云 《Time GeoSpatial on Flink SQL》范文臣 - Sp......

w397090770   7年前 (2018-05-13) 3963℃ 1评论8喜欢

Distributed System

分布式系统一致性问题、CAP定律以及 BASE 理论

分布式系统一致性问题、CAP定律以及 BASE 理论
一致性问题在介绍分布式系统一致性问题之前,我们先来了解一下副本概念。分布式系统会存在许多异常问题,比如机器宕机;为了提供高可用服务,一般会将数据或者服务部署到很多机器上,这些机器中的数据或服务可以称为副本。如果其中任何一台节点出现故障,用户可以访问其他......

w397090770   7年前 (2018-05-04) 4706℃ 0评论10喜欢