w397090770 – 过往记忆-Page 115

用Maven编译Spark 1.0.0源码以错误解决

　　写在前面的话，最近发现有很多网站转载我博客的文章，这个我都不介意的，但是这些网站转载我博客都将文章的出处去掉了，直接变成自己的文章了！！我强烈谴责他们，鄙视那些转载文章去掉出处的人！所以为了防止这些，我以后发表文章的时候，将会在文章里面加入一些回复之后才可见的内容！！请大家不要介意，本博

11年前 (2014-06-06) 30856℃ 40评论6喜欢

Spark

　　Spark 1.0.0于5月30日正式发布，可以到http://spark.apache.org/downloads.html页面下载。Spark 1.0.0是一个主要版本，它标志着Spark已经进入了1.X的时代。这个版本的Spark带来了很多新特性和强API的支持。 Spark 1.0加入了一个主要的组件： Spark SQL，这个组件支持在Spark上存储和操作结构化的数据。已有的标准库比如ML、Streaming和GraphX也得到了很大

11年前 (2014-06-04) 5366℃ 1评论3喜欢

Flume

Apache Flume-ng 1.5.0正式发布

　　Apache Flume 1.5.0 发布于5月22日正式发布（可以在http://flume.apache.org/download.html下载）。Flume是一个分布式、可靠和高可用的服务，用于收集、聚合以及移动大量日志数据，使用一个简单灵活的架构，就流数据模型。这是一个可靠、容错的服务。下面是Apache Flume-ng 1.5.0的Changelog：What's new in Apache Flume 1.5.0:May 22nd, 2014New Feature: Int

11年前 (2014-05-27) 7073℃ 1评论4喜欢

Flume

基于flume-ng 1.4.0的TailSource程序开发

　　写在前面的话，最近发现有很多网站转载我博客的文章，这个我都不介意的，但是这些网站转载我博客都将文章的出处去掉了，直接变成自己的文章了！！我强烈谴责他们，鄙视那些转载文章去掉出处的人！所以为了防止这些，我以后发表文章的时候，将会在文章里面加入一些回复之后才可见的内容！！请大家不要介意，本博

11年前 (2014-05-20) 21935℃ 58评论31喜欢

Flume

基于Hadoop-2.2.0编译flume-ng 1.4.0及错误解决

　　写在前面的话，最近发现有很多网站转载我博客的文章，这个我都不介意的，但是这些网站转载我博客都将文章的出处去掉了，直接变成自己的文章了！！我强烈谴责他们，鄙视那些转载文章去掉出处的人！所以为了防止这些，我以后发表文章的时候，将会在文章里面加入一些回复之后才可见的内容！！请大家不要介意，本博

11年前 (2014-05-13) 14271℃ 30评论3喜欢

Shark

Shark 0.9.1安装遇到的问题及解决办法

这几天在集群上部署了Shark 0.9.1，我下载的是已经编译好的，Hadoop版本是2.2.0，下面就总结一下我在安装Shark的过程中遇到的问题及其解决方案。一、YARN mode not available ?[code lang="JAVA"]Exception in thread "main" org.apache.spark.SparkException: YARN mode not available ? at org.apache.spark.SparkContext$.org$apache$spark$SparkContext$$createTaskScheduler(SparkContext.

11年前 (2014-05-05) 16154℃ 3评论4喜欢

Spark

Spark在Yarn上运行Wordcount程序

　　我们在接触Hadoop的时候，第一个列子一般是运行Wordcount程序，在Spark我们可以用Java代码写一个Wordcount程序并部署在Yarn上运行。我们知道，在Spark源码中就存在一个用Java编写好的JavaWordCount程序，源码如下：[code lang="JAVA"]package org.apache.spark.examples;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apac

11年前 (2014-05-04) 28448℃ 1评论19喜欢

HBase

Shark对Hive的兼容性总结

　　Shark是一种分布式SQL查询工具，它的设计目标就是兼容Hive，今天就来总结一下Shark对Hive特性的兼容。　　一、Shark可以直接部署在Hive的数据仓库上。支持Hive的绝大多数特性，具体如下： Hive查询语句，包括以下： SELECT GROUP_BY ORDER_BY CLUSTER_BY SORT_BY 支持Hive中所有的操作符：关系运算符（=, ⇔, ==, <>, <, &

11年前 (2014-04-30) 7413℃ 1评论4喜欢

Hive

Apache Hive 0.13发布，新增ACID特性

　　4月16日在http://mirror.bit.edu.cn/apache/hive/hive-0.13.0/网址就可以下载Hive 0.13，这个版本在Hive执行速度、扩展性、SQL以及其他方面做了相当多的修改：一、执行速度　　用户可以选择基于Tez的查询，基于Tez的查询可以大大提高Hive的查询速度（官网上上可以提升100倍）。下面一些技术对查询速度的提升：　　（1）、Broadcast Joins：和M

11年前 (2014-04-25) 8371℃ 1评论1喜欢

Spark

Spark 0.9.1 Standalone模式简单例子测试

　　在本博客的《Spark 0.9.1 Standalone模式分布式部署》详细的介绍了如何部署Spark Standalone的分布式，在那篇文章中并没有介绍如何来如何来测试，今天我就来介绍如何用Java来编写简单的程序，并在Standalone模式下运行。　　程序的名称为SimpleApp.java，通过调用Spark提供的API进行的，在程序编写前现在pom引入相应的jar依赖：[code lang="JA

11年前 (2014-04-24) 7678℃ 0评论2喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

w397090770的文章

用Maven编译Spark 1.0.0源码以错误解决

Spark 1.0.0于5月30日正式发布

Apache Flume-ng 1.5.0正式发布

基于flume-ng 1.4.0的TailSource程序开发

基于Hadoop-2.2.0编译flume-ng 1.4.0及错误解决

Shark 0.9.1安装遇到的问题及解决办法

Spark在Yarn上运行Wordcount程序

Shark对Hive的兼容性总结

Apache Hive 0.13发布，新增ACID特性

Spark 0.9.1 Standalone模式简单例子测试