欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:961
  2. 浏览总数:11,482,614
  3. 评论:3873
  4. 分类目录:103 个
  5. 注册用户数:5843
  6. 最后更新:2018年10月17日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
大数据猿:
bigdata_ai

最新发布 第5页

过往记忆专注于大数据技术及应用,微信公众号:iteblog_hadoop

Flink

Apache Flink 1.5.0 正式发布,多项重要更新

Apache Flink 1.5.0 正式发布,多项重要更新
Apache Flink 1.5.0 于昨天晚上正式发布了。在过去五个月的时间里,Flink 社区共解决了超过 780 个 issues。完整的 changelog 看这里: https://issues.apache.org/jira/secure/ReleaseNote.jspa?version=12341764&projectId=12315522。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopFlink 1.5.0 是 1.x.y 版本线上的第六个主要发行版。

w397090770   5个月前 (05-26) 1512℃ 0评论11喜欢

常用工具

在 Shell 中下载 ftp 文件的几种方法

在 Shell 中下载 ftp 文件的几种方法
FTP 是 File Transfer Protocol(文件传输协议)的英文简称,而中文简称为“文传协议”。用于 Internet 上的控制文件的双向传输。同时,它也是一个应用程序(Application)。基于不同的操作系统有不同的 FTP 应用程序,而所有这些应用程序都遵守同一种协议以传输文件。在 FTP 的使用当中,用户经常遇到两个概念:下载(Download)和上传(Up

w397090770   5个月前 (05-23) 608℃ 0评论4喜欢

Hadoop

HDFS 块和 Input Splits 的区别与联系(源码版)

HDFS 块和 Input Splits 的区别与联系(源码版)
在 《HDFS 块和 Input Splits 的区别与联系》 文章中介绍了HDFS 块和 Input Splits 的区别与联系,其中并没有涉及到源码级别的描述。为了补充这部分,这篇文章将列出相关的源码进行说明。看源码可能会比直接看文字容易理解,毕竟代码说明一切。为了简便起见,这里只描述 TextInputFormat 部分的读取逻辑,关于写 HDFS 块相关的代码请参

w397090770   5个月前 (05-16) 981℃ 0评论13喜欢

Hadoop

HDFS 块和 Input Splits 的区别与联系

HDFS 块和 Input Splits 的区别与联系
相信大家都知道,HDFS 将文件按照一定大小的块进行切割,(我们可以通过 dfs.blocksize 参数来设置 HDFS 块的大小,在 Hadoop 2.x 上,默认的块大小为 128MB。)也就是说,如果一个文件大小大于 128MB,那么这个文件会被切割成很多块,这些块分别存储在不同的机器上。当我们启动一个 MapReduce 作业去处理这些数据的时候,程序会计算出文

w397090770   5个月前 (05-16) 835℃ 4评论16喜欢

Flink

杭州第六次 Spark & Flink Meetup 资料分享

杭州第六次 Spark & Flink Meetup 资料分享
杭州第六次 Spark & Flink Meetup 于2018年05月12日在华为杭研所1号楼1楼报告厅进行。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop议题本次会议的议题如下:冯叶磊 - 华为云 《Time GeoSpatial on Flink SQL》范文臣 - Spark PMC 《deep dive into structural streaming》梁永峰 - 阿里《基于Flink的流计算平台

w397090770   5个月前 (05-13) 1918℃ 1评论7喜欢

CarbonData

Apache CarbonData 中文文档

Apache CarbonData 中文文档
Apache CarbonData 是一种新的融合存储解决方案,利用先进的列式存储,索引,压缩和编码技术提高计算效率,从而加快查询速度,其查询速度比 PetaBytes 数据快一个数量级。 鉴于目前使用 Apache CarbonData 用户越来越多,其中就包含了大量的中国用户,这些中国用户可能有很多人英文不是特别好,或者没那么多时间去看英文文档。基于

w397090770   5个月前 (05-09) 1329℃ 0评论7喜欢

Distributed System

分布式系统一致性问题、CAP定律以及 BASE 理论

分布式系统一致性问题、CAP定律以及 BASE 理论
一致性问题在介绍分布式系统一致性问题之前,我们先来了解一下副本概念。分布式系统会存在许多异常问题,比如机器宕机;为了提供高可用服务,一般会将数据或者服务部署到很多机器上,这些机器中的数据或服务可以称为副本。如果其中任何一台节点出现故障,用户可以访问其他机器上的数据或服务。由于副本的存在,如

w397090770   6个月前 (05-04) 1050℃ 0评论7喜欢

CarbonData

CarbonData源码浅析一:Create Table

CarbonData源码浅析一:Create Table
本文来自 恩爸 的文章,原文地址:https://blog.csdn.net/zzcclp/article/details/80161130前言一个偶然的机会,从某Spark微信群知道了CarbonData,从断断续续地去了解,到测试 1.2 版本,再到实际应用 1.3 版本的流式入库,也一年有余,在这期间,得到了 CarbonData 社区的陈亮,李昆,蔡强等大牛的鼎力支持,自己也从认识CarbonData 到应用 Carbo

w397090770   6个月前 (05-02) 975℃ 0评论6喜欢

Distributed System

分布式系统调用的三态

分布式系统调用的三态
在传统的单机系统中,我们调用一个函数,这个函数要么返回成功,要么返回失败,其结果是确定的。可以概括为传统的单机系统调用只存在两态(2-state system):成功和失败。然而在分布式系统中,由于系统是分布在不同的机器上,系统之间的请求就相对于单机模式来说复杂度较高了。具体的,节点 A 上的系统通过 RPC (Remote Proc

w397090770   6个月前 (04-20) 501℃ 0评论8喜欢

Hadoop

Apache Hadoop 3.1.0 正式发布,原生支持GPU和FPGA

Apache Hadoop 3.1.0 正式发布,原生支持GPU和FPGA
4月6日,Apache Hadoop 3.1.0 正式发布了,Apache Hadoop 3.1.0 是2018年 Hadoop-3.x 系列的第一个小版本,并且带来了许多增强功能。不过需要注意的是,这个版本并不推荐在生产环境下使用,如果需要在正式环境下使用,请等待 3.1.1 或 3.1.2 版本。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop这个版

w397090770   7个月前 (04-08) 2083℃ 0评论13喜欢