欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据
大数据技术博客公众号bigdata_ai
开发爱好者社区:
Java技术范

标签:Hive

Hive

Hive:CSV Serde介绍以使用

Hive:CSV Serde介绍以使用
  CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的),其文件以纯文本形式存储表格数据(数字和文本)。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字

w397090770   6年前 (2015-01-26) 8732℃ 0评论11喜欢

Hive

用Hive分析nginx日志

用Hive分析nginx日志
  这里用到的nginx日志是网站的访问日志,比如:[code lang="java"]180.173.250.74 - - [08/Jan/2015:12:38:08 +0800] "GET /avatar/xxx.png HTTP/1.1" 200 968 "/archives/994" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36"[/code]  这条日志里面有九列(为了展示的美观,我在里面加入了换行

w397090770   6年前 (2015-01-08) 13506℃ 2评论17喜欢

Hive

Spark 1.1.0中使用Hive注意事项

Spark 1.1.0中使用Hive注意事项
  Spark 1.1.0中兼容大部分Hive特性,我们可以在Spark中使用Hive。但是默认的Spark发行版本并没有将Hive相关的依赖打包进spark-assembly-1.1.0-hadoop2.2.0.jar文件中,官方对此的说明是:Spark SQL also supports reading and writing data stored in Apache Hive. However, since Hive has a large number of dependencies, it is not included in the default Spark assembly  所以,如果你直

w397090770   6年前 (2014-09-26) 12395℃ 5评论8喜欢

Hive

用Maven编译Spark 1.1.0

用Maven编译Spark 1.1.0
  Spark 1.1.0已经在前几天发布了(《Spark 1.1.0发布:各个模块得到全面升级》、《Spark 1.1.0正式发布》),本博客对Hive部分进行了部分说明:《Spark SQL 1.1.0和Hive的兼容说明》、《Shark迁移到Spark 1.1.0 编程指南》,在这个版本对Hive的支持更加完善了,如果想在Spark SQL中加入Hive,并加入JDBC server和CLI,我们可以在编译的时候通过加上参

w397090770   6年前 (2014-09-17) 18184℃ 8评论10喜欢

Hive

Spark SQL 1.1.0和Hive的兼容说明

Spark SQL 1.1.0和Hive的兼容说明
  Spark SQL也是可以直接部署在当前的Hive wareHouse。  Spark SQL 1.1.0的 Thrift JDBC server 被设计成兼容当前的Hive数据仓库。你不需要修改你的Hive元数据,或者是改变表的数据存放目录以及分区。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop  以下列出来的是当前Spark SQL(1.1.0)对Hive特性的

w397090770   6年前 (2014-09-11) 8987℃ 1评论7喜欢

Hive

Spark SQL & Spark Hive编程开发, 并和Hive执行效率对比

Spark SQL & Spark Hive编程开发, 并和Hive执行效率对比
  Spark SQL也公布了很久,今天写了个程序来看下Spark SQL、Spark Hive以及直接用Hive执行的效率进行了对比。以上测试都是跑在YARN上。  首先我们来看看我的环境: 3台DataNode,2台NameNode,每台机器20G内存,24核 数据都是lzo格式的,共336个文件,338.6 G 无其他任务执行如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关

w397090770   6年前 (2014-08-13) 46104℃ 9评论48喜欢

Hadoop

SQL on Hadoop:场景和结论

SQL on Hadoop:场景和结论
以下文章是转载自国外网站,介绍了Hadoop生态系统上面的几种SQL:Hive、Drill、Impala、Presto以及Spark\Shark等应用场景、对比以及一些结论Within the big data landscape there are multiple approaches to accessing, analyzing, and manipulating data in Hadoop. Each depends on key considerations such as latency, ANSI SQL completeness (and the ability to tolerate machine-generated SQL), developer and a

w397090770   6年前 (2014-08-11) 9636℃ 0评论14喜欢

Hive

Apache Hive 0.13发布,新增ACID特性

Apache Hive 0.13发布,新增ACID特性
  4月16日在http://mirror.bit.edu.cn/apache/hive/hive-0.13.0/网址就可以下载Hive 0.13,这个版本在Hive执行速度、扩展性、SQL以及其他方面做了相当多的修改:一、执行速度  用户可以选择基于Tez的查询,基于Tez的查询可以大大提高Hive的查询速度(官网上上可以提升100倍)。下面一些技术对查询速度的提升:  (1)、Broadcast Joins:和M

w397090770   7年前 (2014-04-25) 7955℃ 1评论1喜欢

Hive

Hive:ORC File Format存储格式详解

Hive:ORC File Format存储格式详解
  写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。/archives/tag/hive的那些事  在Hive中,我们应该都听过RCFile这种格

w397090770   7年前 (2014-04-16) 76188℃ 9评论58喜欢

Hadoop

Apache Avro使用入门指南

Apache Avro使用入门指南
  Avro有C, C++, C#, Java, PHP, Python, and Ruby等语言的实现,本文只简单介绍如何在Java中使用Avro进行数据的序列化(data serialization)。本文使用的是Avro 1.7.4,这是写这篇文章时最新版的Avro。读完本文,你将会学到如何使用Avro编译模式、如果用Avro序列化和反序列化数据。一、准备项目需要的jar包  文本的例子需要用到的Jar包有这四

w397090770   7年前 (2014-04-08) 43184℃ 4评论38喜欢