欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
开发爱好者社区:
bigdata_ai

标签:Hive

Hive

从行存储到 RCFile,Facebook 为什么要设计出 RCFile?

从行存储到 RCFile,Facebook 为什么要设计出 RCFile?
2010年,Facebook 的工程师在 ICDC(IEEE International Conference on Data Engineering) 发表了一篇 《RCFile: A Fast and Space-efficient Data Placement Structure in MapReduce-based Warehouse Systems》 的论文,介绍了其为基于 MapReduce 的数据仓库设计的高效存储结构,这就是我们熟知的 RCFile(Record Columnar File)。下面介绍 RCFile 的一些诞生背景和设计。背景早在2010

w397090770   4周前 (06-16) 163℃ 0评论4喜欢

Hive

图文介绍 SQL 的三种查询计划处理模型

图文介绍 SQL 的三种查询计划处理模型
我已经在之前的 《一条 SQL 在 Apache Spark 之旅(上)》、《一条 SQL 在 Apache Spark 之旅(中)》 以及 《一条 SQL 在 Apache Spark 之旅(下)》 这三篇文章中介绍了 SQL 从用户提交到最后执行都经历了哪些过程,感兴趣的同学可以去这三篇文章看看。这篇文章中我们主要来介绍 SQL 查询计划(Query Plan)常见的处理模型(processing model)。数

w397090770   2个月前 (05-13) 374℃ 0评论3喜欢

Hive

在 Hive 中使用 OpenCSVSerde

在 Hive 中使用 OpenCSVSerde
OpenCSVSerde 使用大家使用 Hive 分析数据的时候,CSV 格式的数据应该是很常见的,所以从 0.14.0 开始(参见 HIVE-7777) Hive 跟我们提供了原生的 OpenCSVSerde 来解析 CSV 格式的数据。从名字可以看出,OpenCSVSerde 是基于 Open-CSV 2.3 类库实现的,其解析 csv 的功能还是很强大的。为了在 Hive 中使用这个 serde,我们需要在建表的时候指定 row form

w397090770   2个月前 (05-04) 231℃ 0评论2喜欢

Hive

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践
Facebook 经常使用分析来进行数据驱动的决策。在过去的几年里,用户和产品都得到了增长,使得我们分析引擎中单个查询的数据量达到了数十TB。我们的一些批处理分析都是基于 Hive 平台(Apache Hive 是 Facebook 在2009年贡献给社区的)和 Corona( Facebook 内部的 MapReduce 实现)进行的。Facebook 还针对包括 Hive 在内的多个内部数据存储,继续

w397090770   7个月前 (12-19) 1109℃ 0评论8喜欢

Alluxio

史上最全的大数据学习资源(Awesome Big Data)

史上最全的大数据学习资源(Awesome Big Data)
为了让大家更好地学习交流,过往记忆大数据花了一个周末的时间把 Awesome Big Data 里近 600 个大数据相关的调度、存储、计算、数据库以及可视化等介绍全部翻译了一遍,供大家学习交流。关系型数据库管理系统MySQL 世界上最流行的开源数据库。PostgreSQL 世界上最先进的开源数据库。Oracle Database - 对象关系数据库管理系统。T

w397090770   10个月前 (09-23) 7149℃ 1评论19喜欢

Flink

五年总结:过往记忆大数据公众号原创精选

五年总结:过往记忆大数据公众号原创精选
今年是我创建这个微信公众号的第五年,五年来,收获了6.8万粉丝。这个数字,在自媒体圈子,属于十八线小规模的那种,但是在纯技术圈,还是不错的成绩,我很欣慰。我花在这个号上面的时间挺多的。我平时下班比较晚,一般下班到家了,老婆带着孩子已经安睡了,我便轻手轻脚的拿出电脑,带上耳机,开始我一天的知识盘

w397090770   11个月前 (08-13) 3965℃ 0评论21喜欢

Hive

Apache Hive JdbcStorageHandler 编程入门指南

Apache Hive JdbcStorageHandler 编程入门指南
Apache Hive 从 HIVE-1555 开始引入了 JdbcStorageHandler ,这个使得 Hive 能够读取 JDBC 数据源,关于 Apache Hive 引入 JdbcStorageHandler 的背景可以参见 《Apache Hive 联邦查询(Query Federation)》。本文主要简单介绍 JdbcStorageHandler 的使用。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop语法JdbcStorageHandler 使

w397090770   1年前 (2019-04-01) 1818℃ 0评论1喜欢

Hive

从 Hive 迁移到 Spark SQL 在有赞的实践

从 Hive 迁移到 Spark SQL 在有赞的实践
有赞数据平台从2017年上半年开始,逐步使用 SparkSQL 替代 Hive 执行离线任务,目前 SparkSQL 每天的运行作业数量5000个,占离线作业数目的55%,消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到的问题以及处理经验和优化建议,包括以下方面的内容:有赞数据平台的整体架构。SparkSQL 在有赞的技术演进

w397090770   1年前 (2019-03-20) 6436℃ 1评论25喜欢

Hive

Apache Hive 联邦查询(Query Federation)

Apache Hive 联邦查询(Query Federation)
如今,很多公司可能会在内部使用多种数据存储和处理系统。这些不同的系统解决了对应的使用案例。除了传统的 RDBMS (比如 Oracle DB,Teradata或PostgreSQL) 之外,我们还会使用 Apache Kafka 来获取流和事件数据。使用 Apache Druid 处理实时系列数据(real-time series data),使用 Apache Phoenix 进行快速索引查找。 此外,我们还可能使用云存储

w397090770   1年前 (2019-03-16) 2740℃ 1评论5喜欢

Hive

Apache Hive 内置函数(Builtin Function)列表

Apache Hive 内置函数(Builtin Function)列表
本文所列的 Hive 函数均为 Hive 内置的,共计294个,Hive 版本为 3.1.0。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop!! a - Logical not,和not逻辑操作符含义一致[code lang="sql"]hive> select !(true);OKfalse[/code]!=a != b - Returns TRUE if a is not equal to b,和操作符含义一致[code lang="sql"]hive> se

w397090770   2年前 (2018-07-22) 5010℃ 0评论7喜欢