欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:988
  2. 浏览总数:12,219,250
  3. 评论:3982
  4. 分类目录:106 个
  5. 注册用户数:6259
  6. 最后更新:2019年1月14日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
大数据猿:
bigdata_ai
  • HBase Rowkey 设计指南
  • HBase 工程中 protobuf 版本冲突解决
  • Flink Forward 201809PPT资料下载
  • Spark Summit North America 201806 全部PPT下载[共147个]
  • Apache Spark 统一内存管理模型详解
  • Paxos Made Simple 译文
  • Apache Pulsar:雅虎开发的企业级发布订阅消息系统
  • 图解Apache Kafka消息偏移量的演变(0.7.x~0.10.x)
  • Kafka创建Topic时如何将分区放置到不同的Broker中
  • WordPress所有分页URL由/page/n/变成/page-n.html实现
  • Spark Summit East 2017高清视频和PPT下载
  • BigDL:运行在Apache Spark上的分布式深度学习类库
  • 大数据流处理系统精彩资源月刊(第2期)
  • AdminLTE:基于Bootstrap3的免费高级管理控制面板主题
  • IntelliJ IDEA 2016.2正式发布,功能提升
HBase Rowkey 设计指南HBase 工程中 protobuf 版本冲突解决Flink Forward 201809PPT资料下载Spark Summit North America 201806 全部PPT下载[共147个]Apache Spark 统一内存管理模型详解Paxos Made Simple 译文Apache Pulsar:雅虎开发的企业级发布订阅消息系统图解Apache Kafka消息偏移量的演变(0.7.x~0.10.x)Kafka创建Topic时如何将分区放置到不同的Broker中WordPress所有分页URL由/page/n/变成/page-n.html实现Spark Summit East 2017高清视频和PPT下载BigDL:运行在Apache Spark上的分布式深度学习类库大数据流处理系统精彩资源月刊(第2期)AdminLTE:基于Bootstrap3的免费高级管理控制面板主题IntelliJ IDEA 2016.2正式发布,功能提升
Spark

Apache Spark 2.0 在作业完成时却花费很长时间结束

Apache Spark 2.0 在作业完成时却花费很长时间结束
现象大家在使用 Apache Spark 2.x 的时候可能会遇到这种现象:虽然我们的 Spark Jobs 已经全部完成了,但是我们的程序却还在执行。比如我们使用 Spark SQL 去执行一些 SQL,这个 SQL 在最后生成了大量的文件。然后我们可以看到,这个 SQL 所有的 Spark Jobs 其实已经运行完成了,但是这个查询语句还在运行。通过日志,我们可以看到 driver

w397090770   4天前 182℃ 0评论6喜欢

HBase

HBase 入门之数据刷写(Memstore Flush)详细说明

HBase 入门之数据刷写(Memstore Flush)详细说明
接触过 HBase 的同学应该对 HBase 写数据的过程比较熟悉(不熟悉也没关系)。HBase 写数据(比如 put、delete)的时候,都是写 WAL(假设 WAL 没有被关闭) ,然后将数据写到一个称为 MemStore 的内存结构里面的,如下图:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop但是,MemStore 毕竟是内存里

w397090770   6天前 194℃ 0评论6喜欢

HBase

HBase 是列式存储数据库吗

HBase 是列式存储数据库吗
在介绍 HBase 是不是列式存储数据库之前,我们先来了解一下什么是行式数据库和列式数据库。行式数据库和列式数据库在维基百科里面,对行式数据库和列式数据库的定义为:列式数据库是以列相关存储架构进行数据存储的数据库,主要适合于批量数据处理(OLAP)和即时查询。相对应的是行式数据库,数据以行相关的存储体

w397090770   1周前 (01-08) 206℃ 0评论6喜欢

HBase

为了让你更全面的了解Apache HBase,我们做了这本专刊

为了让你更全面的了解Apache HBase,我们做了这本专刊
Apache HBase是基于Hadoop构建的一个分布式的、可伸缩的海量数据存储系统。随着时间的推移,HBase目前不管是在国内还是国外都受到了非常大的欢迎,以下分别是近几年 Google 和百度关于 HBase 的搜索趋势:Google如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop大家可以看到,整体趋势是越来越

w397090770   2周前 (01-05) 448℃ 0评论6喜欢

开源软件

Apache Griffin:分布式系统的数据质量解决方案

Apache Griffin:分布式系统的数据质量解决方案
Apache Griffin 是开源的大数据数据质量解决方案,支持批处理和流模式,其是基于 Apache Hadoop 和 Apache Spark 构建,由 eBay 开发,并于 2016年12月07日进入 Apache 孵化。Griffin 提供了一个可以处理不同的任务,如定义数据质量模型,执行数据质量测量,自动化数据分析和验证,以及跨多个数据系统的统一数据质量可视化的全面的框架,旨在

w397090770   2周前 (01-03) 338℃ 3评论2喜欢

大数据

盘点2018年晋升为Apache TLP的大数据相关项目

盘点2018年晋升为Apache TLP的大数据相关项目
去年,我整理了2017年成功晋升为Apache TLP的大数据相关项目进行了整理,具体可以参见《盘点2017年晋升为Apache TLP的大数据相关项目》。现在已经进入了2019年了,我在这里给大家整理了2018年成功晋升为 Apache TLP 的大数据相关项目。2018年晋升成 TLP 的项目不多,总共四个,按照项目晋升的时间进行排序的。Apache Trafodion:基于 Hadoop 平

w397090770   2周前 (01-02) 301℃ 0评论1喜欢

Hadoop

Submarine:在 Apache Hadoop 中运行深度学习框架

Submarine:在 Apache Hadoop 中运行深度学习框架
本文来自 submarine 团队投稿。作者: Wangda Tan & Sunil Govindan & Zhankun Tang(这篇博文由网易的刘勋和周全协助编写)。原文地址:https://hortonworks.com/blog/submarine-running-deep-learning-workloads-apache-hadoop/介绍Hadoop 是用于大型企业数据集的分布式处理的最流行的开源框架,它在本地和云端环境中都有很多重要用途。深度学习对于语

w397090770   3周前 (01-01) 295℃ 0评论3喜欢

HBase

为什么不建议在 HBase 中使用过多的列族

为什么不建议在 HBase 中使用过多的列族
我们知道,一张 HBase 表包含一个或多个列族。HBase 的官方文档中关于 HBase 表的列族的个数有两处描述:A typical schema has between 1 and 3 column families per table. HBase tables should not be designed to mimic RDBMS tables. 以及 HBase currently does not do well with anything above two or three column families so keep the number of column families in your schema low. 上面两句话其实都是

w397090770   3周前 (01-01) 322℃ 0评论3喜欢

HBase

HBase Rowkey 设计指南

HBase Rowkey 设计指南
本文来自本人于2018年12月25日在 HBase生态+Spark社区钉钉大群直播,本群每周二下午18点-19点之间进行 HBase+Spark技术分享。加群地址:https://dwz.cn/Fvqv066s。本文 PPT 下载:关注 iteblog_hadoop 微信公众号,并回复 HBase_Rowkey 关键字获取。为什么Rowkey这么重要RowKey 到底是什么如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微

w397090770   3周前 (12-25) 508℃ 0评论6喜欢

Flink

Flink Forward 201812 PPT资料下载

Flink Forward 201812 PPT资料下载
Flink Forward 是由 Apache 官方授权,Apache Flink China社区支持,有来自阿里巴巴,dataArtisans(Apache Flink 商业母公司),华为、腾讯、滴滴、美团以及字节跳动等公司参加的国际型会议。旨在汇集大数据领域一流人才共同探讨新一代大数据计算引擎技术。通过参会不仅可以了解到Flink社区的最新动态和发展计划,还可以了解到国内外一线大

w397090770   4周前 (12-22) 962℃ 0评论10喜欢