分类：Hive的那些事

Apache Hive是一个建立在Hadoop架构之上的数据仓库。它能够提供数据的精炼，查询和分析。本分类介绍Hive的使用经验、技术等。

如何彻底解决 Hive 小文件问题

最近发现离线任务对一个增量Hive表的查询越来越慢，这引起了我的注意，我在cmd窗口手动执行count操作查询发现，速度确实很慢，才不到五千万的数据，居然需要300s，这显然是有问题的，我推测可能是有小文件。我去hdfs目录查看了一下该目录：发现确实有很多小文件，有480个小文件，我觉得我找到了问题所在，那么合并一

zz~~ 3年前 (2021-08-20) 1074℃ 0评论3喜欢

从行存储到 RCFile，Facebook 为什么要设计出 RCFile？

2010年，Facebook 的工程师在 ICDC（IEEE International Conference on Data Engineering）发表了一篇《RCFile: A Fast and Space-efficient Data Placement Structure in MapReduce-based Warehouse Systems》的论文，介绍了其为基于 MapReduce 的数据仓库设计的高效存储结构，这就是我们熟知的 RCFile（Record Columnar File）。下面介绍 RCFile 的一些诞生背景和设计。背景早在2010

w397090770 4年前 (2020-06-16) 1222℃ 0评论7喜欢

在 Hive 中使用 OpenCSVSerde

OpenCSVSerde 使用大家使用 Hive 分析数据的时候，CSV 格式的数据应该是很常见的，所以从 0.14.0 开始（参见 HIVE-7777） Hive 跟我们提供了原生的 OpenCSVSerde 来解析 CSV 格式的数据。从名字可以看出，OpenCSVSerde 是基于 Open-CSV 2.3 类库实现的，其解析 csv 的功能还是很强大的。为了在 Hive 中使用这个 serde，我们需要在建表的时候指定 row form

w397090770 4年前 (2020-05-04) 1596℃ 0评论3喜欢

Apache Hive JdbcStorageHandler 编程入门指南

Apache Hive 从 HIVE-1555 开始引入了 JdbcStorageHandler ，这个使得 Hive 能够读取 JDBC 数据源，关于 Apache Hive 引入 JdbcStorageHandler 的背景可以参见《Apache Hive 联邦查询（Query Federation）》。本文主要简单介绍 JdbcStorageHandler 的使用。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop语法JdbcStorageHandler 使

w397090770 5年前 (2019-04-01) 3245℃ 0评论7喜欢

从 Hive 迁移到 Spark SQL 在有赞的实践

有赞数据平台从2017年上半年开始，逐步使用 SparkSQL 替代 Hive 执行离线任务，目前 SparkSQL 每天的运行作业数量5000个，占离线作业数目的55%，消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到的问题以及处理经验和优化建议，包括以下方面的内容：有赞数据平台的整体架构。SparkSQL 在有赞的技术演进

w397090770 5年前 (2019-03-20) 8168℃ 5评论28喜欢

Apache Hive 联邦查询（Query Federation）

如今，很多公司可能会在内部使用多种数据存储和处理系统。这些不同的系统解决了对应的使用案例。除了传统的 RDBMS （比如 Oracle DB，Teradata或PostgreSQL）之外，我们还会使用 Apache Kafka 来获取流和事件数据。使用 Apache Druid 处理实时系列数据（real-time series data），使用 Apache Phoenix 进行快速索引查找。此外，我们还可能使用云存储

w397090770 5年前 (2019-03-16) 5002℃ 1评论7喜欢

Apache Hive 内置函数(Builtin Function)列表

本文所列的 Hive 函数均为 Hive 内置的，共计294个，Hive 版本为 3.1.0。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop!! a - Logical not，和not逻辑操作符含义一致[code lang="sql"]hive> select !(true);OKfalse[/code]!=a != b - Returns TRUE if a is not equal to b，和操作符含义一致[code lang="sql"]hive> se

w397090770 6年前 (2018-07-22) 9416℃ 0评论8喜欢

1
2
3
4
5
6
下一页
共 6 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据