标签：Hive的那些事

Hive中order by,Sort by,Distribute by和Cluster By介绍

　　我们在使用Hive的时候经常会使用到order by、Sort by、Distribute by和Cluster By，本文对其含义进行介绍。order by　　Hive中的order by和数据库中的order by 功能一致，按照某一项或者几项排序输出，可以指定是升序或者是降序排序。它保证全局有序，但是进行order by的时候是将所有的数据全部发送到一个Reduce中，所以在大数据量的情

w397090770 10年前 (2015-11-19) 14369℃ 0评论16喜欢

Hive

Hive：解决Hive创建文件数过多的问题

　　今天将临时表里面的数据按照天分区插入到线上的表中去，出现了Hive创建的文件数大于100000个的情况，我的SQL如下：[code lang="sql"]///////////////////////////////////////////////////////////////////// User: 过往记忆 Date: 2015-11-18 Time: 23:24 bolg: 本文地址：/archives/1533 过往记忆博客，专注于hadoop、hive、spark、shark、flume的技术博客，大量

w397090770 10年前 (2015-11-18) 23111℃ 3评论53喜欢

Hive

Hive on Spark编程入门指南

　　先说明一下，这里说的Hive on Spark是Hive跑在Spark上，用的是Spark执行引擎，而不是MapReduce，和Hive on Tez的道理一样。　　从Hive 1.1版本开始，Hive on Spark已经成为Hive代码的一部分了，并且在spark分支上面，可以看这里https://github.com/apache/hive/tree/spark，并会定期的移到master分支上面去。关于Hive on Spark的讨论和进度，可以看这里https://

w397090770 10年前 (2015-08-31) 41941℃ 30评论43喜欢

Hive

Hive元数据升级

　　如果我们Hadoop的core-site.xml文件中的fs.defaultFS配置由于某种原因需要修改，比如Hadoop升级、重新命名fs.defaultFS等。也就是由hdfs://olditeblog变成hdfs://newiteblogle ,如下：[code lang="bash"]<property>　　<name>fs.defaultFS</name>　　<value>hdfs://olditeblog</value></property>变成<property>　　<name>fs.defaultFS</

w397090770 10年前 (2015-08-27) 8599℃ 0评论14喜欢

Hive

Hive 1.0.0发布

　　美国时间2015年2月4日，Hive 1.0.0正式发布了。该版本是Apache Hive九年来工作的认可，并且开发者们正在继续开发。Apache Hive 1.0.0版本本来是要命名为Hive 0.14.1的，但是社区感觉是时候以1.x.y结构来命名。　　虽然被叫做1.0.0版本，但是其中的改变范围很少，主要有两个改变：1、开始为HiveMetaStoreClient定义公开的API(HIVE-3280)；2、HiveServ

w397090770 11年前 (2015-02-06) 7157℃ 0评论3喜欢

Hive

Hive:CSV Serde介绍以使用

　　CSV格式的文件也称为逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的），其文件以纯文本形式存储表格数据（数字和文本）。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字

w397090770 11年前 (2015-01-26) 9751℃ 0评论12喜欢

Hive

用Hive分析nginx日志

　　这里用到的nginx日志是网站的访问日志，比如：[code lang="java"]180.173.250.74 - - [08/Jan/2015:12:38:08 +0800] "GET /avatar/xxx.png HTTP/1.1" 200 968 "/archives/994" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36"[/code]　　这条日志里面有九列（为了展示的美观，我在里面加入了换行

w397090770 11年前 (2015-01-08) 14305℃ 2评论17喜欢

Hive

Spark SQL & Spark Hive编程开发，并和Hive执行效率对比

　　Spark SQL也公布了很久，今天写了个程序来看下Spark SQL、Spark Hive以及直接用Hive执行的效率进行了对比。以上测试都是跑在YARN上。　　首先我们来看看我的环境： 3台DataNode，2台NameNode，每台机器20G内存，24核数据都是lzo格式的，共336个文件，338.6 G 无其他任务执行如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关

w397090770 11年前 (2014-08-13) 50159℃ 9评论51喜欢

Hive

Apache Hive 0.13发布，新增ACID特性

　　4月16日在http://mirror.bit.edu.cn/apache/hive/hive-0.13.0/网址就可以下载Hive 0.13，这个版本在Hive执行速度、扩展性、SQL以及其他方面做了相当多的修改：一、执行速度　　用户可以选择基于Tez的查询，基于Tez的查询可以大大提高Hive的查询速度（官网上上可以提升100倍）。下面一些技术对查询速度的提升：　　（1）、Broadcast Joins：和M

w397090770 11年前 (2014-04-25) 8369℃ 1评论1喜欢

Hive

Hive:ORC File Format存储格式详解

　　写在前面的话，学Hive这么久了，发现目前国内还没有一本完整的介绍Hive的书籍，而且互联网上面的资料很乱，于是我决定写一些关于《Hive的那些事》序列文章，分享给大家。我会在接下来的时间整理有关Hive的资料，如果对Hive的东西感兴趣，请关注本博客。/archives/tag/hive的那些事　　在Hive中，我们应该都听过RCFile这种格

w397090770 11年前 (2014-04-16) 84452℃ 9评论77喜欢

上一页
1
2
3
4
5
6
下一页
共 6 页