标签：Hive

Hive常用字符串函数

Hive内部提供了很多操作字符串的相关函数，本文将对其中部分常用的函数进行介绍。下表为Hive内置的字符串函数，具体的用法可以参见本文的下半部分。返回类型函数名描述intascii(string str)返回str第一个字符串的数值stringbase64(binary bin)将二进制参数转换为base64字符串

w397090770 9年前 (2016-04-24) 116586℃ 91喜欢

Hive

　　在本博客的《使用Spark SQL读取Hive上的数据》文章中我介绍了如何通过Spark去读取Hive里面的数据，不过有时候我们在创建SQLContext实例的时候遇到类似下面的异常：[code lang="java"]java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient at org.apache.hadoop.hive.ql.session.SessionState.start(Se

w397090770 10年前 (2016-01-11) 16511℃ 5评论14喜欢

Hive

Hive on Spark新增的参数介绍

　　Hive on Spark功能目前只增加下面九个参数，具体含义可以参见下面介绍。hive.spark.client.future.timeout　　Hive client请求Spark driver的超时时间，如果没有指定时间单位，默认就是秒。Expects a time value with unit (d/day, h/hour, m/min, s/sec, ms/msec, us/usec, ns/nsec), which is sec if not specified. Timeout for requests from Hive client to remote Spark driver.hive.spark.job.mo

w397090770 10年前 (2015-12-07) 24702℃ 2评论11喜欢

Hive

Hive常用语句

显示分区[code lang="sql"]show partitions iteblog;[/code]添加分区[code lang="sql"]ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location1'] partition_spec [LOCATION 'location2'] ...; partition_spec: : (partition_column = partition_col_value, partition_column = partition_col_value, ...)ALTER TABLE iteblog ADD PARTITION (dt='2008-08-08') location '/path/to/us/part080

w397090770 10年前 (2015-11-27) 9997℃ 0评论18喜欢

Hive

Hive中order by,Sort by,Distribute by和Cluster By介绍

　　我们在使用Hive的时候经常会使用到order by、Sort by、Distribute by和Cluster By，本文对其含义进行介绍。order by　　Hive中的order by和数据库中的order by 功能一致，按照某一项或者几项排序输出，可以指定是升序或者是降序排序。它保证全局有序，但是进行order by的时候是将所有的数据全部发送到一个Reduce中，所以在大数据量的情

w397090770 10年前 (2015-11-19) 14372℃ 0评论16喜欢

Hive

Hive：解决Hive创建文件数过多的问题

　　今天将临时表里面的数据按照天分区插入到线上的表中去，出现了Hive创建的文件数大于100000个的情况，我的SQL如下：[code lang="sql"]///////////////////////////////////////////////////////////////////// User: 过往记忆 Date: 2015-11-18 Time: 23:24 bolg: 本文地址：/archives/1533 过往记忆博客，专注于hadoop、hive、spark、shark、flume的技术博客，大量

w397090770 10年前 (2015-11-18) 23112℃ 3评论53喜欢

Hive

Hive 1.2.1源码编译

　　Hive 1.2.1源码编译依赖的Hadoop版本必须最少是2.6.0，因为里面用到了Hadoop的org.apache.hadoop.crypto.key.KeyProvider和org.apache.hadoop.crypto.key.KeyProviderFactory两个类，而这两个类在Hadoop 2.6.0才出现，否者会出现以下编译错误：[ERROR] /home/q/spark/apache-hive-1.2.1-src/shims/0.23/src/main/java/org/apache/hadoop/hive/shims/Hadoop23Shims.java:[43,36] package org.apache.hadoop.cry

w397090770 10年前 (2015-11-11) 13719℃ 11评论6喜欢

Hive

Hive on Spark编程入门指南

　　先说明一下，这里说的Hive on Spark是Hive跑在Spark上，用的是Spark执行引擎，而不是MapReduce，和Hive on Tez的道理一样。　　从Hive 1.1版本开始，Hive on Spark已经成为Hive代码的一部分了，并且在spark分支上面，可以看这里https://github.com/apache/hive/tree/spark，并会定期的移到master分支上面去。关于Hive on Spark的讨论和进度，可以看这里https://

w397090770 10年前 (2015-08-31) 41941℃ 30评论43喜欢

Hive

使用Spark SQL读取Hive上的数据

　　Spark SQL主要目的是使得用户可以在Spark上使用SQL，其数据源既可以是RDD，也可以是外部的数据源（比如Parquet、Hive、Json等）。Spark SQL的其中一个分支就是Spark on Hive，也就是使用Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑，可以近似认为仅将物理执行计划从MR作业替换成了Spark作业。本文就是来介绍如何通过Spark SQL来

w397090770 10年前 (2015-08-27) 74778℃ 19评论38喜欢

Hive

Hive元数据升级

　　如果我们Hadoop的core-site.xml文件中的fs.defaultFS配置由于某种原因需要修改，比如Hadoop升级、重新命名fs.defaultFS等。也就是由hdfs://olditeblog变成hdfs://newiteblogle ,如下：[code lang="bash"]<property>　　<name>fs.defaultFS</name>　　<value>hdfs://olditeblog</value></property>变成<property>　　<name>fs.defaultFS</

w397090770 10年前 (2015-08-27) 8600℃ 0评论14喜欢

上一页
1
2
3
4
5
6
7
8
下一页
共 8 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

标签：Hive

Hive常用字符串函数

Spark连接Hive的metastore异常

Hive on Spark新增的参数介绍

Hive常用语句

Hive中order by,Sort by,Distribute by和Cluster By介绍

Hive：解决Hive创建文件数过多的问题

Hive 1.2.1源码编译

Hive on Spark编程入门指南

使用Spark SQL读取Hive上的数据

Hive元数据升级