欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

w397090770的文章

Kafka

Kafka 团队修改 KSQL 开源许可证,禁止其作为 SaaS 产品来提供

Kafka 团队修改 KSQL 开源许可证,禁止其作为 SaaS 产品来提供
在今年的十月份,MongoDB 宣布其开源许可证从 GNU AGPLv3 切换到 Server Side Public License (SSPL),十一月份,图数据库 Neo4j 也宣布企业版彻底闭源。今天,Confluent 公司的联合创始人兼 CEO Jay Kreps 在 Confluent 官方博客宣布 Confluent 平台部分开源组件从 Apache 2.0 切换到 Confluent Community License,参见这里,下面是这篇文章的全部翻译。我们正在将

  7年前 (2018-12-15) 2060℃ 0评论3喜欢

Spark

Apache Spark 2.4 内置图像数据源介绍

Apache Spark 2.4 内置图像数据源介绍
随着图像分类(image classification)和对象检测(object detection)的深度学习框架的最新进展,开发者对 Apache Spark 中标准图像处理的需求变得越来越大。图像处理和预处理有其特定的挑战 - 比如,图像有不同的格式(例如,jpeg,png等),大小和颜色,并且没有简单的方法来测试正确性。图像数据源通过给我们提供可以编码的标准表

  7年前 (2018-12-13) 2528℃ 0评论4喜欢

Spark

Apache Spark 2.4 内置的 Avro 数据源介绍

Apache Spark 2.4 内置的 Avro 数据源介绍
Apache Avro 是一种流行的数据序列化格式。它广泛用于 Apache Spark 和 Apache Hadoop 生态系统,尤其适用于基于 Kafka 的数据管道。从 Apache Spark 2.4 版本开始,Spark 为读取和写入 Avro 数据提供内置支持。新的内置 spark-avro 模块最初来自 Databricks 的开源项目Avro Data Source for Apache Spark。除此之外,它还提供以下功能:新函数 from_avro() 和 to_avro()

  7年前 (2018-12-11) 3324℃ 0评论9喜欢

HBase

OpenTSDB 之 HBase的数据模型

OpenTSDB 之 HBase的数据模型
我们在 《OpenTSDB 底层 HBase 的 Rowkey 是如何设计的》 文章中已经简单介绍了 OpenTSDB 的 RowKey 设计的思路,并简单介绍了列簇以及列名的组成。本文将比较详细的介绍 OpenTSDB 在 HBase 的数据存储模型。OpenTSDB RowKey 设计关于 OpenTSDB 的 RowKey 为什么这么设计可以参见 《OpenTSDB 底层 HBase 的 Rowkey 是如何设计的》文章了。这里主要介绍 R

  7年前 (2018-12-05) 3055℃ 0评论3喜欢

HBase

HBase MOB(Medium Object)使用入门指南

HBase MOB(Medium Object)使用入门指南
《Apache HBase中等对象存储MOB压缩分区策略介绍》 文章中介绍了 MOB 的一些压缩实现,并提及了一些 MOB 的一些简单使用,本文将详细地介绍 HBase MOB 的使用,本指南适合入门的开发者。将不同大小的文件(比如图片、文档等)存储到 HBase 非常的简单方便。从技术上来说,HBase 可以直接在一个单元格(Cell)存储大小到10MB的二进制对

  7年前 (2018-12-03) 2948℃ 0评论5喜欢

Hadoop

HDFS 快照编程指南

HDFS 快照编程指南
HDFS 快照是从 Hadoop 2.1.0-beta 版本开始引入的新功能,详见 HDFS-2802。概述HDFS 快照(HDFS Snapshots)是文件系统在某个时间点的只读副本。可以在文件系统的子树或整个文件系统上创建快照。快照的常见用途主要包括数据备份,防止用户误操作和容灾恢复。HDFS 快照的实现非常高效:快照的创建非常迅速:除去 inode 的查找时间,

  7年前 (2018-12-02) 2215℃ 0评论3喜欢

HBase

HBase在新能源汽车监控系统中的应用

HBase在新能源汽车监控系统中的应用
重庆博尼施科技有限公司是一家商用车全周期方案服务商,利用车联网、云计算、移动互联网技术,在物流领域 为商用车的生产、销售、使用、售后、回收各个环节提供一站式解决方案,其中的新能源车辆监控系统就是由该公司提供的,本文是阿里云客户重庆博尼施科技有限公司介绍如何使用阿里云 HBase 来实现新能源车辆监控系统

  7年前 (2018-11-29) 4429℃ 2评论16喜欢

HBase

HBase 工程中 protobuf 版本冲突解决

HBase 工程中 protobuf 版本冲突解决
Protobuf (全称 Protocol Buffers)是 Google 开发的一种数据描述语言,能够将结构化数据序列化,可用于数据存储、通信协议等方面。在 HBase 里面用使用了 Protobuf 的类库,目前 Protobuf 最新版本是 3.6.1(参见这里),但是在目前最新的 HBase 3.0.0-SNAPSHOT 对 Protobuf 的依赖仍然是 2.5.0(参见 protobuf.version),但是这些版本的 Protobuf 是互补兼

  7年前 (2018-11-26) 5672℃ 0评论10喜欢

Spark

Apache Spark 2.4 新增内置函数和高阶函数使用介绍

Apache Spark 2.4 新增内置函数和高阶函数使用介绍
Apache Spark 2.4 新增了24个内置函数和5个高阶函数,本文将对这29个函数的使用进行介绍。关于 Apache Spark 2.4 的新特性,可以参见 《Apache Spark 2.4 正式发布,重要功能详细介绍》。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop针对数组类型的函数array_distinctarray_distinct(array<T>): array<T

  7年前 (2018-11-25) 7797℃ 0评论18喜欢

HBase

HBase 在人工智能场景的使用

HBase 在人工智能场景的使用
近几年来,人工智能逐渐火热起来,特别是和大数据一起结合使用。人工智能的主要场景又包括图像能力、语音能力、自然语言处理能力和用户画像能力等等。这些场景我们都需要处理海量的数据,处理完的数据一般都需要存储起来,这些数据的特点主要有如下几点:大:数据量越大,对我们后面建模越会有好处;稀疏:每行

  7年前 (2018-11-22) 3377℃ 1评论10喜欢