欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

2018年12月的内容

HBase

HBase Rowkey 设计指南

HBase Rowkey 设计指南
本文来自本人于2018年12月25日在 HBase生态+Spark社区钉钉大群直播,本群每周二下午18点-19点之间进行 HBase+Spark技术分享。加群地址:https://dwz.cn/Fvqv066s。本文 PPT 下载:关注 iteblog_hadoop 微信公众号,并回复 HBase_Rowkey 关键字获取。为什么Rowkey这么重要RowKey 到底是什么如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微

w397090770   5年前 (2018-12-25) 7352℃ 0评论29喜欢

Flink

Flink Forward 201812 PPT资料下载

Flink Forward 201812 PPT资料下载
Flink Forward 是由 Apache 官方授权,Apache Flink China社区支持,有来自阿里巴巴,dataArtisans(Apache Flink 商业母公司),华为、腾讯、滴滴、美团以及字节跳动等公司参加的国际型会议。旨在汇集大数据领域一流人才共同探讨新一代大数据计算引擎技术。通过参会不仅可以了解到Flink社区的最新动态和发展计划,还可以了解到国内外一线大

w397090770   5年前 (2018-12-22) 3942℃ 0评论17喜欢

Kafka

Kafka 团队修改 KSQL 开源许可证,禁止其作为 SaaS 产品来提供

Kafka 团队修改 KSQL 开源许可证,禁止其作为 SaaS 产品来提供
在今年的十月份,MongoDB 宣布其开源许可证从 GNU AGPLv3 切换到 Server Side Public License (SSPL),十一月份,图数据库 Neo4j 也宣布企业版彻底闭源。今天,Confluent 公司的联合创始人兼 CEO Jay Kreps 在 Confluent 官方博客宣布 Confluent 平台部分开源组件从 Apache 2.0 切换到 Confluent Community License,参见这里,下面是这篇文章的全部翻译。我们正在将

w397090770   5年前 (2018-12-15) 1966℃ 0评论3喜欢

Spark

Apache Spark 2.4 内置图像数据源介绍

Apache Spark 2.4 内置图像数据源介绍
随着图像分类(image classification)和对象检测(object detection)的深度学习框架的最新进展,开发者对 Apache Spark 中标准图像处理的需求变得越来越大。图像处理和预处理有其特定的挑战 - 比如,图像有不同的格式(例如,jpeg,png等),大小和颜色,并且没有简单的方法来测试正确性。图像数据源通过给我们提供可以编码的标准表

w397090770   5年前 (2018-12-13) 2377℃ 0评论4喜欢

Spark

Apache Spark 2.4 内置的 Avro 数据源介绍

Apache Spark 2.4 内置的 Avro 数据源介绍
Apache Avro 是一种流行的数据序列化格式。它广泛用于 Apache Spark 和 Apache Hadoop 生态系统,尤其适用于基于 Kafka 的数据管道。从 Apache Spark 2.4 版本开始,Spark 为读取和写入 Avro 数据提供内置支持。新的内置 spark-avro 模块最初来自 Databricks 的开源项目Avro Data Source for Apache Spark。除此之外,它还提供以下功能:新函数 from_avro() 和 to_avro()

w397090770   5年前 (2018-12-11) 3015℃ 0评论9喜欢

HBase

OpenTSDB 之 HBase的数据模型

OpenTSDB 之 HBase的数据模型
我们在 《OpenTSDB 底层 HBase 的 Rowkey 是如何设计的》 文章中已经简单介绍了 OpenTSDB 的 RowKey 设计的思路,并简单介绍了列簇以及列名的组成。本文将比较详细的介绍 OpenTSDB 在 HBase 的数据存储模型。OpenTSDB RowKey 设计关于 OpenTSDB 的 RowKey 为什么这么设计可以参见 《OpenTSDB 底层 HBase 的 Rowkey 是如何设计的》文章了。这里主要介绍 R

w397090770   5年前 (2018-12-05) 2909℃ 0评论3喜欢

HBase

HBase MOB(Medium Object)使用入门指南

HBase MOB(Medium Object)使用入门指南
《Apache HBase中等对象存储MOB压缩分区策略介绍》 文章中介绍了 MOB 的一些压缩实现,并提及了一些 MOB 的一些简单使用,本文将详细地介绍 HBase MOB 的使用,本指南适合入门的开发者。将不同大小的文件(比如图片、文档等)存储到 HBase 非常的简单方便。从技术上来说,HBase 可以直接在一个单元格(Cell)存储大小到10MB的二进制对

w397090770   5年前 (2018-12-03) 2681℃ 0评论5喜欢

Hadoop

HDFS 快照编程指南

HDFS 快照编程指南
HDFS 快照是从 Hadoop 2.1.0-beta 版本开始引入的新功能,详见 HDFS-2802。概述HDFS 快照(HDFS Snapshots)是文件系统在某个时间点的只读副本。可以在文件系统的子树或整个文件系统上创建快照。快照的常见用途主要包括数据备份,防止用户误操作和容灾恢复。HDFS 快照的实现非常高效:快照的创建非常迅速:除去 inode 的查找时间,

w397090770   5年前 (2018-12-02) 2079℃ 0评论3喜欢