分类：海量数据处理

Apache Hive 0.13发布，新增ACID特性

　　4月16日在http://mirror.bit.edu.cn/apache/hive/hive-0.13.0/网址就可以下载Hive 0.13，这个版本在Hive执行速度、扩展性、SQL以及其他方面做了相当多的修改：一、执行速度　　用户可以选择基于Tez的查询，基于Tez的查询可以大大提高Hive的查询速度（官网上上可以提升100倍）。下面一些技术对查询速度的提升：　　（1）、Broadcast Joins：和M

w397090770 10年前 (2014-04-25) 8221℃ 1评论1喜欢

Spark 0.9.1 Standalone模式简单例子测试

　　在本博客的《Spark 0.9.1 Standalone模式分布式部署》详细的介绍了如何部署Spark Standalone的分布式，在那篇文章中并没有介绍如何来如何来测试，今天我就来介绍如何用Java来编写简单的程序，并在Standalone模式下运行。　　程序的名称为SimpleApp.java，通过调用Spark提供的API进行的，在程序编写前现在pom引入相应的jar依赖：[code lang="JA

w397090770 10年前 (2014-04-24) 7594℃ 0评论2喜欢

Hadoop元数据合并异常及解决方法

　　这几天观察了一下Standby NN上面的日志，发现每次Fsimage合并完之后，Standby NN通知Active NN来下载合并好的Fsimage的过程中会出现以下的异常信息：[code lang="JAVA"]2014-04-23 14:42:54,964 ERROR org.apache.hadoop.hdfs.server.namenode.ha. StandbyCheckpointer: Exception in doCheckpointjava.net.SocketTimeoutException: Read timed out at java.net.SocketInputStream.socketRead0(

w397090770 10年前 (2014-04-23) 7638℃ 2评论8喜欢

Spark 0.9.1 Standalone模式分布式部署

　　在本博客的《Spark 0.9.1源码编译》和《Spark源码编译遇到的问题解决》两篇文章中，分别讲解了如何编译Spark源码以及在编译源码过程中遇到的一些问题及其解决方法。今天来说说如何部署分布式的Spark集群，在本篇文章中，我主要是介绍如何部署Standalone模式。　　一、修改配置文件　　1、将$SPARK_HOME/conf/spark-env.sh.template文件

w397090770 10年前 (2014-04-21) 9451℃ 1评论5喜欢

Spark 0.9.1源码编译

　　根据官方文档，Spark可以用Maven进行编译，但是我试了好几个版本都编译不通过，所以没用（如果大家用Maven编译通过了Spark，求分享。）。这里是利用sbt对Spark进行编译。中间虽然也遇到了很多问题，但是经过几天的折腾，终于通过了，关于如何解决编译中间出现的问题，可以参见本博客的《Spark源码编译遇到的问题解决》进行

w397090770 10年前 (2014-04-18) 10979℃ 3评论7喜欢

Spark源码编译遇到的问题解决

1、内存不够[code lang="JAVA"][ERROR] PermGen space -> [Help 1][ERROR] [ERROR] To see the full stack trace of the errors,re-run Maven with the -e switch.[ERROR] Re-run Maven using the -X switch to enable full debug logging.[ERROR] [ERROR] For more information about the errors and possible solutions, please read the following articles:[ERROR] [Help 1]http://cwiki.apache.org/confluence/display/MAVEN/OutOfMemoryErr

w397090770 10年前 (2014-04-16) 15478℃ 4评论9喜欢