分类：HBase

HBase 数据压缩介绍与实战

为了提高 HBase 存储的利用率，很多 HBase 使用者会对 HBase 表中的数据进行压缩。目前 HBase 可以支持的压缩方式有 GZ（GZIP）、LZO、LZ4 以及 Snappy。它们之间的区别如下：GZ：用于冷数据压缩，与 Snappy 和 LZO 相比，GZIP 的压缩率更高，但是更消耗 CPU，解压/压缩速度更慢。Snappy 和 LZO：用于热数据压缩，占用 CPU 少，解压/压缩速度比

w397090770 9年前 (2017-02-09) 2068℃ 0评论1喜欢

Apache HBase 1.3.0正式发布

　　Apache HBase 1.3.0于美国时间2017年01月17日正式发布。本版本是Hbase 1.x版本线的第三次小版本，大约解决了1700个issues，主要包括了大量的Bug修复和性能提升；其中以下的新特性值得关注：Date-based tiered compactions (HBASE-15181, HBASE-15339)Maven archetypes for HBase client applications (HBASE-14877)Throughput controller for flushes (HBASE-14969)Controlled delay (CoD

w397090770 9年前 (2017-01-18) 3480℃ 0评论3喜欢

使用Spark读取HBase中的数据

　　在《Spark读取Hbase中的数据》文章中我介绍了如何在Spark中读取Hbase中的数据，并提供了Java和Scala两个版本的实现，本文将接着上文介绍如何通过Spark将计算好的数据存储到Hbase中。　　Spark中内置提供了两个方法可以将数据写入到Hbase：（1）、saveAsHadoopDataset；（2）、saveAsNewAPIHadoopDataset，它们的官方介绍分别如下：　　saveAsHad

w397090770 9年前 (2016-11-29) 17938℃ 1评论29喜欢

通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]

在第一次建立Hbase表的时候，我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中，或者通过MR方式等。但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下，所以很不适合一次性导入大量数据。本文将针对这个问题介绍如何通过Hbase的BulkLoad方法来快速将海量数据导入到Hbas

w397090770 9年前 (2016-11-28) 18039℃ 2评论52喜欢

运行Hbase作业出现cannot access its superclass com.google.protobuf.LiteralByteString异常解决

最近写了一个Spark程序用来读取Hbase中的数据，我的Spark版本是1.6.1，Hbase版本是0.96.2-hadoop2，当程序写完之后，使用下面命令提交作业：[code lang="java"][iteblog@www.iteblog.com $] bin/spark-submit --master yarn-cluster --executor-memory 4g --num-executors 5 --queue iteblog --executor-cores 2 --class com.iteblog.hbase.HBaseRead --jars spark-hbase-connector_2.10-1.0.3.jar,hbase-common-0.9

w397090770 9年前 (2016-11-03) 3717℃ 0评论7喜欢

Hive和HBase整合用户指南

　　本文讲解的Hive和HBase整合意思是使用Hive读取Hbase中的数据。我们可以使用HQL语句在HBase表上进行查询、插入操作；甚至是进行Join和Union等复杂查询。此功能是从Hive 0.6.0开始引入的，详情可以参见HIVE-705。Hive与HBase整合的实现是利用两者本身对外的API接口互相进行通信，相互通信主要是依靠hive-hbase-handler-1.2.0.jar工具里面的类实现

w397090770 9年前 (2016-07-31) 17575℃ 0评论42喜欢

Apache HBase 1.2.1正式发布

　　Apache HBase 1.2.1 于2016-04-12正式发布了，HBase 1.2.1是HBase 1.2.z版本线上的第一个维护版本，该版本的主题仍然是为Hadoop和NoSQL社区带来稳定和可靠的数据库。此版本在1.2.0版本上解决了27个issues。主要的Bug修改* [HBASE-15441] - Fix WAL splitting when region has moved multiple times* [HBASE-15219] - Canary tool does not return non-zero exit code when

w397090770 9年前 (2016-04-14) 3180℃ 0评论2喜欢

关于大数据的五问五答

　　本文出自本公众号ChinaScala，由陈超所述。一、Spark能否取代Hadoop？　　答： Hadoop包含了Common,HDFS,YARN及MapReduce，Spark从来没说要取代Hadoop，最多也就是取代掉MapReduce。事实上现在Hadoop已经发展成为一个生态系统，并且Hadoop生态系统也接受更多优秀的框架进来，如Spark (Spark可以和HDFS无缝结合，并且可以很好的跑在YARN上).。

w397090770 10年前 (2015-08-26) 7262℃ 1评论42喜欢

Hadoop等大数据学习相关电子书[共85本]

　　下面的大数据学习电子书我会陆续上传，敬请关注。一、Hadoop1、Hadoop Application Architectures2、Hadoop: The Definitive Guide, 4th Edition3、Hadoop Security Protecting Your Big Data Platform4、Field Guide to Hadoop An Introduction to Hadoop, Its Ecosystem, and Aligned Technologies5、Hadoop Operations A Guide for Developers and Administrators6、Hadoop Backup and Recovery Solutions

w397090770 10年前 (2015-08-11) 20535℃ 2评论56喜欢

使用Spark SQL读取HBase上的数据

　　近日，由华为团队开发的Spark-SQL-on-HBase项目通过Spark SQL/DataFrame并调用Hbase内置的访问API读取HBase上面的数据，该项目具有很好的可扩展性和可靠性。这个项目具有以下的特点：　　1、基于部分评估技术，该项目具有强大的数据剪枝和智能扫描特点；　　2、支持自定义过滤规则、协处理器等以便支持超低延迟的处理；　　3

w397090770 10年前 (2015-07-23) 22759℃ 0评论22喜欢

上一页
1
2
3
4
5
6
下一页
共 6 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据