欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:961
  2. 浏览总数:11,482,940
  3. 评论:3873
  4. 分类目录:103 个
  5. 注册用户数:5843
  6. 最后更新:2018年10月17日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
大数据猿:
bigdata_ai

w397090770的文章

Alluxio

Alluxio Meetup 上海站开始报名了

Alluxio Meetup 上海站开始报名了
Alluxio Meetup 上海站由 Alluxio、七牛主办,示说网、过往记忆协办,本次会议将于2018年10月27日 13:30-17:00 在上海市张江高科博霞路66号浦东软件园Q座举行。报名地址扫描下面二维码:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop活动详情Alluxio:未来是数据的时代,数据的高效管理、存储

  3天前 153℃ 0评论1喜欢

Spark

Spark+AI Summit Europe 2018 PPT下载[共95个]

Spark+AI Summit Europe 2018 PPT下载[共95个]
为期三天的 Spark+AI Summit Europe 于 2018-10-02 ~ 04 在伦敦举行,一如往前,本次会议包含大量 AI 相关的议题,某种意义上也代表着 Spark 未来的发展方向。作为大数据领域的顶级会议,Spark+AI Summit Europe 2018 吸引了全球大量技术大咖参会,本次会议议题超过了140多个。会议的全部日程请参见:https://databricks.com/sparkaisummit/europe/schedule。注意

  1周前 (10-13) 557℃ 1评论2喜欢

Hadoop

如何从根源上解决 HDFS 小文件问题

如何从根源上解决 HDFS 小文件问题
我们知道,HDFS 被设计成存储大规模的数据集,我们可以在 HDFS 上存储 TB 甚至 PB 级别的海量数据。而这些数据的元数据(比如文件由哪些块组成、这些块分别存储在哪些节点上)全部都是由 NameNode 节点维护,为了达到高效的访问, NameNode 在启动的时候会将这些元数据全部加载到内存中。而 HDFS 中的每一个文件、目录以及文件块,

  2周前 (10-09) 574℃ 0评论5喜欢

Beam

大规模数据处理的演化历程(2003-2018)

大规模数据处理的演化历程(2003-2018)
本文翻译自《Streaming System》最后一章《The Evolution of Large-Scale Data Processing》,在探讨流式系统方面本书是市面上难得一见的深度书籍,非常值得学习。大数据如果从 Google 对外发布 MapReduce 论文算起,已经前后跨越十五年,我打算在本文和你蜻蜓点水般一起浏览下大数据的发展史,我们从最开始 MapReduce 计算模型开始,一路走马观

  2周前 (10-08) 590℃ 0评论7喜欢

Spark

Spark Structured Streaming特性介绍

Spark Structured Streaming特性介绍
为帮助开发者更深入的了解这三个大数据开源技术及其实际应用场景,9月8日,InfoQ联合华为云举办了一场实时大数据Meetup,集结了来自Databricks、华为及美团点评的大咖级嘉宾前来分享。作为Spark Structured Streaming最核心的开发人员、Databricks工程师,Tathagata Das(以下简称“TD”)在开场演讲中介绍了Structured Streaming的基本概念

  4周前 (09-21) 561℃ 0评论4喜欢

Spark

即将发布的 Apache Spark 2.4 都有哪些新功能

即将发布的 Apache Spark 2.4 都有哪些新功能
本文来自于2018年09月19日在 Adobe Systems Inc 举行的 Apache Spark Meetup。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop即将发布的 Apache Spark 2.4 版本是 2.x 系列的第五个版本。 本文对 Apache Spark 2.4 的主要功能和增强功能进行了概述。新的调度模型(Barrier Scheduling),使用户能够将分布式深度学

  4周前 (09-20) 793℃ 0评论8喜欢

Flink

Flink Forward 201809PPT资料下载

Flink Forward 201809PPT资料下载
这次整理的 PPT 来自于2018年09月03日至05日在 Berlin 进行的 flink forward 会议,这种性质的会议和大家熟知的Spark summit类似。本次会议的官方日程参见:https://berlin-2018.flink-forward.org/。本次会议共有超过350个 Flink 社区会员的人参与,因为原始的 PPT 是在 http://www.slideshare.net/ 网站,这个网站需要翻墙;为了学习交流的方便,本博客将这些 P

  1个月前 (09-19) 570℃ 2评论3喜欢

Hadoop

Hadoop Archives 编程指南

Hadoop Archives 编程指南
概述Hadoop archives 是特殊的档案格式。一个 Hadoop archive 对应一个文件系统目录。 Hadoop archive 的扩展名是 *.har。Hadoop archive 包含元数据(形式是 _index 和 _masterindx)和数据(part-*)文件。_index 文件包含了档案中文件的文件名和位置信息。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop如何

  1个月前 (09-17) 265℃ 0评论0喜欢

Kafka

Spark 从 Kafka 读数并发问题

Spark 从 Kafka 读数并发问题
经常使用 Apache Spark 从 Kafka 读数的同学肯定会遇到这样的问题:某些 Spark 分区已经处理完数据了,另一部分分区还在处理数据,从而导致这个批次的作业总消耗时间变长;甚至导致 Spark 作业无法及时消费 Kafka 中的数据。为了简便起见,本文讨论的 Spark Direct 方式读取 Kafka 中的数据,这种情况下 Spark RDD 中分区和 Kafka 分区是一一对

  1个月前 (09-08) 1239℃ 0评论7喜欢

HBase

Apache HBase中等对象存储MOB压缩分区策略介绍

Apache HBase中等对象存储MOB压缩分区策略介绍
介绍Apache HBase 中等对象存储(Medium Object Storage, 下面简称 MOB)的特性是由 HBASE-11339 引入的。该功能可以提高 HBase 对中等尺寸文件的低延迟读写访问(理想情况下,文件大小为 100K 到 10MB),这个功能使得 HBase 非常适合存储文档,图片和其他中等尺寸的对象。Apache HBase MOB 功能的实现是通过分离文件引用和 MOB 对象的 IO 路径来实

  2个月前 (08-27) 357℃ 0评论2喜欢