欢迎关注大数据技术架构与案例微信公众号：过往记忆大数据。

欢迎关注微信公众号：
过往记忆大数据

有关【Hadoop】的内容

知乎 Flink 取代 Spark Streaming 的实战之路

“数据智能” (Data Intelligence) 有一个必须且基础的环节，就是数据仓库的建设，同时，数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲，数据的结果代表了用户的反馈，获取结果的及时性就显得尤为重要，快速的获取数据反馈能够帮助公......

w397090770 7年前 (2019-02-16) 24330℃ 1评论46喜欢

Google

在 IDEA 中使用 Maven 编译 proto 文件

Google Protocol Buffer( 简称 Protobuf) 是 Google 公司内部的混合语言数据标准，目前已经正在使用的有超过 48,162 种报文格式定义和超过 12,183 个 .proto 文件。他们用于 RPC 系统和持续数据存储系统。Protocol Buffers 是一种序列化数据结构的方法。对于通过管线(pipel......

w397090770 7年前 (2019-02-01) 7005℃ 0评论8喜欢

Distributed System

一致性哈希算法（Consistent Hashing）最早在1997年由 David Karger 等人在论文《Consistent Hashing and Random Trees: Distributed Caching Protocols for Relieving Hot Spots on the World Wide Web》中被提出，其设计目标是为了解决因特网中的热点(Hot spot)问题；一致......

w397090770 7年前 (2019-02-01) 4206℃ 0评论7喜欢

Distributed System

分布式原理：一文了解 Gossip 协议

gossip 是什么gossip 协议（gossip protocol）又称 epidemic 协议（epidemic protocol），是基于流行病传播方式的节点或者进程之间信息交换的协议，在分布式系统中被广泛使用，比如我们可以使用 gossip 协议来确保网络中所有节点的数据一样。gossip protocol 最初是由施乐......

w397090770 7年前 (2019-01-24) 20122℃ 1评论15喜欢

Spark

Spark SQL 查询中 Coalesce 和 Repartition 暗示（Hint）

如果你使用 Spark RDD 或者 DataFrame 编写程序，我们可以通过 coalesce 或 repartition 来修改程序的并行度：val data = sc.newAPIHadoopFile(xxx).coalesce(2).map(xxxx)或val data = sc.newAPIHadoopFile(xxx).repartition(2).map(xxxx)val df = spark.read.j......

w397090770 7年前 (2019-01-24) 8312℃ 0评论12喜欢

Spark

Apache Spark 2.0 在作业完成时却花费很长时间结束

现象大家在使用 Apache Spark 2.x 的时候可能会遇到这种现象：虽然我们的 Spark Jobs 已经全部完成了，但是我们的程序却还在执行。比如我们使用 Spark SQL 去执行一些 SQL，这个 SQL 在最后生成了大量的文件。然后我们可以看到，这个 SQL 所有的 Spark Jobs 其实已经运行完......

w397090770 7年前 (2019-01-14) 4364℃ 0评论18喜欢

HBase

HBase 入门之数据刷写(Memstore Flush)详细说明

接触过 HBase 的同学应该对 HBase 写数据的过程比较熟悉（不熟悉也没关系）。HBase 写数据（比如 put、delete）的时候，都是写 WAL（假设 WAL 没有被关闭），然后将数据写到一个称为 MemStore 的内存结构里面的，如下图：如果想及时了解Spark、Hadoop或者Hbase相关的文章......

w397090770 7年前 (2019-01-13) 7655℃ 4评论32喜欢

HBase

HBase 是列式存储数据库吗

在介绍 HBase 是不是列式存储数据库之前，我们先来了解一下什么是行式数据库和列式数据库。行式数据库和列式数据库在维基百科里面，对行式数据库和列式数据库的定义为：列式数据库是以列相关存储架构进行数据存储的数据库，主要适合于批量数据处理（OLAP）和即时查询。相......

w397090770 7年前 (2019-01-08) 6650℃ 0评论31喜欢

HBase

为了让你更全面的了解Apache HBase，我们做了这本专刊

Apache HBase是基于Hadoop构建的一个分布式的、可伸缩的海量数据存储系统。随着时间的推移，HBase目前不管是在国内还是国外都受到了非常大的欢迎，以下分别是近几年 Google 和百度关于 HBase 的搜索趋势：Google如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关......

w397090770 7年前 (2019-01-05) 3615℃ 4评论15喜欢

开源软件

Apache Griffin：分布式系统的数据质量解决方案

Apache Griffin 是开源的大数据数据质量解决方案，支持批处理和流模式，其是基于 Apache Hadoop 和 Apache Spark 构建，由 eBay 开发，并于 2016年12月07日进入 Apache 孵化。Griffin 提供了一个可以处理不同的任务，如定义数据质量模型，执行数据质量测量，自动化数据分析......

w397090770 7年前 (2019-01-03) 9482℃ 3评论9喜欢

上一页
1
···
40
41
42
43
44
45
46
47
48
49
50
...
99
下一页
共 99 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

有关【Hadoop】的内容

知乎 Flink 取代 Spark Streaming 的实战之路

在 IDEA 中使用 Maven 编译 proto 文件

分布式原理：一致性哈希算法简介

分布式原理：一文了解 Gossip 协议

Spark SQL 查询中 Coalesce 和 Repartition 暗示（Hint）

Apache Spark 2.0 在作业完成时却花费很长时间结束

HBase 入门之数据刷写(Memstore Flush)详细说明

HBase 是列式存储数据库吗

为了让你更全面的了解Apache HBase，我们做了这本专刊

Apache Griffin：分布式系统的数据质量解决方案