有关【Hadoop】的内容

从 Hive 迁移到 Spark SQL 在有赞的实践

有赞数据平台从2017年上半年开始，逐步使用 SparkSQL 替代 Hive 执行离线任务，目前 SparkSQL 每天的运行作业数量5000个，占离线作业数目的55%，消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到的问题以及处理经验和优化建议，包括以下方......

w397090770 6年前 (2019-03-20) 8351℃ 5评论29喜欢

Spark

一篇文章了解 Spark Shuffle 内存使用

在使用 Spark 进行计算时，我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况，而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢？为此，本文将围绕以上问题梳理 Spark 内存管理和 Shuffle 过程......

w397090770 6年前 (2019-03-17) 5492℃ 0评论19喜欢

Hive

Apache Hive 联邦查询（Query Federation）

如今，很多公司可能会在内部使用多种数据存储和处理系统。这些不同的系统解决了对应的使用案例。除了传统的 RDBMS （比如 Oracle DB，Teradata或PostgreSQL）之外，我们还会使用 Apache Kafka 来获取流和事件数据。使用 Apache Druid 处理实时系列数据（real-time series d......

w397090770 6年前 (2019-03-16) 5315℃ 1评论8喜欢

ElasticSearch

Open Distro for Elasticsearch：AWS 自家版本的开源 ElasticSearch

AWS 于近期发布了自家版本的开源 ElasticSearch ：Open Distro for Elasticsearch。我们都知道，Elasticsearch 是一个分布式面向文档的搜索和分析引擎。它支持结构化和非结构化查询，并且不需要提前定义模式。 Elasticsearch 可用作搜索引擎，通常用于 Web 级日志分析，实......

w397090770 6年前 (2019-03-13) 4393℃ 0评论10喜欢

Spark

Apache Spark 3.0 将内置支持 GPU 调度

如今大数据和机器学习已经有了很大的结合，在机器学习里面，因为计算迭代的时间可能会很长，开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA 了。作为通用计算引擎的 Spark 肯定也不甘落后，来自 Data......

w397090770 6年前 (2019-03-10) 6559℃ 0评论9喜欢

Hadoop

HBase 中加盐（Salting）之后的表如何读取：MapReduce 篇

前两篇文章，《HBase 中加盐（Salting）之后的表如何读取：协处理器篇》和《HBase 中加盐（Salting）之后的表如何读取：Spark 篇》分别介绍了两种方法读取加盐之后的 HBase 表。本文将介绍如何在 MapReduce 读取加盐之后的表。在 MapReduce 中也可以使用《HBase 中加盐......

w397090770 6年前 (2019-02-27) 2987℃ 0评论7喜欢

HBase

HBase 中加盐（Salting）之后的表如何读取：Spark 篇

在《HBase 中加盐（Salting）之后的表如何读取：协处理器篇》文章中介绍了使用协处理器来查询加盐之后的表，本文将介绍第二种方法来实现相同的功能。我们知道，HBase 为我们提供了 hbase-mapreduce 工程包含了读取 HBase 表的 InputFormat、OutputFormat 等类。这个工程......

w397090770 6年前 (2019-02-26) 3933℃ 0评论16喜欢

HBase

HBase 中加盐（Salting）之后的表如何读取：协处理器篇

在《HBase Rowkey 设计指南》文章中，我们介绍了避免数据热点的三种比较常见方法：加盐 - Salting哈希 - Hashing反转 - Reversing其中在加盐（Salting）的方法里面是这么描述的：给 Rowkey 分配一个随机前缀以使得它和之前排序不同。但是在 Rowkey 前面加了随机前缀......

w397090770 6年前 (2019-02-24) 4810℃ 0评论11喜欢

HBase

HBase 读流程解析与优化的最佳实践

本文首先对 HBase 做简单的介绍，包括其整体架构、依赖组件、核心服务类的相关解析。再重点介绍 HBase 读取数据的流程分析，并根据此流程介绍如何在客户端以及服务端优化性能，同时结合有赞线上 HBase 集群的实际应用情况，将理论和实践结合，希望能给读者带来启发。如文章......

w397090770 7年前 (2019-02-20) 5379℃ 0评论11喜欢

HBase

HBase 协处理器入门及实战

HBase 和 MapReduce 有很高的集成，我们可以使用 MR 对存储在 HBase 中的数据进行分布式计算。但是在很多情况下，例如简单的加法计算或者聚合操作（求和、计数等），如果能够将这些计算推送到 RegionServer，这将大大减少服务器和客户的的数据通信开销，从而提高 HBase 的计......

w397090770 7年前 (2019-02-17) 6385℃ 2评论13喜欢

上一页
1
···
39
40
41
42
43
44
45
46
47
48
49
...
99
下一页
共 99 页