欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

有关【Hadoop】的内容

Flink

知乎 Flink 取代 Spark Streaming 的实战之路

知乎 Flink 取代 Spark Streaming 的实战之路
“数据智能” (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公......

w397090770   7年前 (2019-02-16) 24330℃ 1评论46喜欢

Google

在 IDEA 中使用 Maven 编译 proto 文件

在 IDEA 中使用 Maven 编译 proto 文件
Google Protocol Buffer( 简称 Protobuf) 是 Google 公司内部的混合语言数据标准,目前已经正在使用的有超过 48,162 种报文格式定义和超过 12,183 个 .proto 文件。他们用于 RPC 系统和持续数据存储系统。Protocol Buffers 是一种序列化数据结构的方法。对于通过管线(pipel......

w397090770   7年前 (2019-02-01) 7005℃ 0评论8喜欢

Distributed System

分布式原理:一文了解 Gossip 协议

分布式原理:一文了解 Gossip 协议
gossip 是什么gossip 协议(gossip protocol)又称 epidemic 协议(epidemic protocol),是基于流行病传播方式的节点或者进程之间信息交换的协议,在分布式系统中被广泛使用,比如我们可以使用 gossip 协议来确保网络中所有节点的数据一样。gossip protocol 最初是由施乐......

w397090770   7年前 (2019-01-24) 20122℃ 1评论15喜欢

Spark

Apache Spark 2.0 在作业完成时却花费很长时间结束

Apache Spark 2.0 在作业完成时却花费很长时间结束
现象大家在使用 Apache Spark 2.x 的时候可能会遇到这种现象:虽然我们的 Spark Jobs 已经全部完成了,但是我们的程序却还在执行。比如我们使用 Spark SQL 去执行一些 SQL,这个 SQL 在最后生成了大量的文件。然后我们可以看到,这个 SQL 所有的 Spark Jobs 其实已经运行完......

w397090770   7年前 (2019-01-14) 4364℃ 0评论18喜欢

HBase

HBase 入门之数据刷写(Memstore Flush)详细说明

HBase 入门之数据刷写(Memstore Flush)详细说明
接触过 HBase 的同学应该对 HBase 写数据的过程比较熟悉(不熟悉也没关系)。HBase 写数据(比如 put、delete)的时候,都是写 WAL(假设 WAL 没有被关闭) ,然后将数据写到一个称为 MemStore 的内存结构里面的,如下图:如果想及时了解Spark、Hadoop或者Hbase相关的文章......

w397090770   7年前 (2019-01-13) 7655℃ 4评论32喜欢

HBase

HBase 是列式存储数据库吗

HBase 是列式存储数据库吗
在介绍 HBase 是不是列式存储数据库之前,我们先来了解一下什么是行式数据库和列式数据库。行式数据库和列式数据库在维基百科里面,对行式数据库和列式数据库的定义为:列式数据库是以列相关存储架构进行数据存储的数据库,主要适合于批量数据处理(OLAP)和即时查询。相......

w397090770   7年前 (2019-01-08) 6650℃ 0评论31喜欢

开源软件

Apache Griffin:分布式系统的数据质量解决方案

Apache Griffin:分布式系统的数据质量解决方案
Apache Griffin 是开源的大数据数据质量解决方案,支持批处理和流模式,其是基于 Apache Hadoop 和 Apache Spark 构建,由 eBay 开发,并于 2016年12月07日进入 Apache 孵化。Griffin 提供了一个可以处理不同的任务,如定义数据质量模型,执行数据质量测量,自动化数据分析......

w397090770   7年前 (2019-01-03) 9482℃ 3评论9喜欢