如果你想搭建伪分布式Hadoop平台,请参见本博客《在Fedora上部署Hadoop2.2.0伪分布式平台》
经过好多天的各种折腾,终于在几台电脑里面配置好了Hadoop2.2.0分布式系统,现在总结一下如何配置。
前提条件:
(1)、首先在每台Linux电脑上面安装好JDK6或其以上版本,并设置好JAVA_HOME等,测试一下java、javac、jps等命令
w397090770
12年前 (2013-11-06) 21593℃ 6评论
27喜欢
Hive可以运行保存在文件里面的一条或多条的语句,只要用-f参数,一般情况下,保存这些Hive查询语句的文件通常用.q或者.hql后缀名,但是这不是必须的,你也可以保存你想要的后缀名。假设test文件里面有一下的Hive查询语句:
[code lang="JAVA"]
select * from p limit 10;
select count(*) from p;
[/code]
那么我们可以用下面的命令来查询:
[cod
w397090770
12年前 (2013-11-06) 10497℃ 2评论
5喜欢
1、新增"Explain dependency"语法,以json格式输出执行语句会读取的input table和input partition信息,这样debug语句会读取哪些表就很方便了
[code lang="JAVA"]
hive> explain dependency select count(1) from p;
OK
{"input_partitions":
[{"partitionName":"default@p@stat_date=20110728/province=bj"},
{"partitionName":"default@p@stat_date=20110728/provinc
w397090770
12年前 (2013-11-04) 7711℃ 2评论
4喜欢
在Hive0.11.0版本新引进了一个新的特性,也就是当用户将Hive查询结果输出到文件,用户可以指定列的分割符,而在之前的版本是不能指定列之间的分隔符,这样给我们带来了很大的不变,在Hive0.11.0之前版本我们一般是这样用的:
[code lang="JAVA"]
hive> insert overwrite local directory '/home/wyp/Documents/result'
hive> select * from test;
[/code]
w397090770
12年前 (2013-11-04) 21282℃ 9评论
10喜欢
前提条件:安装好相应版本的Hadoop(可以参见《在Fedora上部署Hadoop2.2.0伪分布式平台》)、安装好JDK1.6或以上版本(可以参见《如何在Linux平台命令行环境下安装Java1.6》)
Hive的下载地址:http://archive.apache.org/dist/hive/,你可以选择你适合的版本去下载。本博客下载的Hive版本为0.8.0。你可以运行下面的命令去下载Hive,并解压:
[
w397090770
12年前 (2013-11-01) 15551℃ 6评论
3喜欢
在我电脑里面:
[code lang="JAVA"]
Hadoop1.2.1中fs.default.name=hdfs://localhost:9000
Hadoop2.2.0中fs.default.name=hdfs://localhost:8020
[/code]
所以Hive在Hadoop1.2.1中存放数据的绝对路径为:
[code lang="JAVA"]
hdfs://localhost:9000/home/wyp/cloud/hive/warehouse/cite
[/code]
其中、home/wyp/cloud/hive/warehouse/是配置文件设置的,如下:
[code lang="JAVA"]
<property>
<name>hive
w397090770
12年前 (2013-10-31) 20327℃ 1评论
8喜欢
在Hive0.8开始支持Insert into语句,它的作用是在一个表格里面追加数据。
标准语法语法如下:
[code lang="sql"]
用法一:
INSERT OVERWRITE TABLE tablename1 [PARTITION
(partcol1=val1, partcol2=val2 ...) [IF NOT EXISTS]]
select_statement1 FROM from_statement;
用法二:
INSERT INTO TABLE tablename1 [PARTITION
(partcol1=val1, partcol2=val2 ...)]
select_statement1 FROM from_statement;
[/code
w397090770
12年前 (2013-10-30) 102794℃ 2评论
71喜欢
经过几天的折腾,终于配置好了Hadoop2.2.0(如何配置在Linux平台部署Hadoop请参见本博客《在Fedora上部署Hadoop2.2.0伪分布式平台》),今天主要来说说怎么在Hadoop2.2.0伪分布式上面运行我们写好的Mapreduce程序。先给出这个程序所依赖的Maven包:
[code lang="JAVA"]
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
w397090770
12年前 (2013-10-29) 20739℃ 6评论
10喜欢
如果你想配置完全分布式平台请参见本博客《Hadoop2.2.0完全分布式集群平台安装与设置》
首先,你得在电脑上面安装好jdk7,如何安装,这里就不说了,网上一大堆教程!然后安装好ssh,如何安装请参见本博客《Linux平台下安装SSH》、并设置好无密码登录(《Ubuntu和CentOS如何配置SSH使得无密码登陆》)。好了,上面的
w397090770
12年前 (2013-10-28) 9626℃ 7评论
7喜欢
在使用Hadoop的时候,一般配置SSH使得我们可以无密码登录到主机,下面分别以Ubuntu和CentOS两个平台来举例说明如何配置SSH使得我们可以无密码登录到主机,当然,你得先安装好SSH服务器,并开启(关于如何在Linux平台下安装好SSH请参加本博客的《Linux平台下安装SSH》)
在 Ubuntu 平台设置 SSH 无秘钥登录
Ubuntu配置步骤如下所示:
[c
w397090770
12年前 (2013-10-24) 7950℃ 4评论
3喜欢