海量数据处理 – 过往记忆-Page 2

Spark Standalone模式应用程序开发

　　在本博客的《Spark快速入门指南(Quick Start Spark)》文章中简单地介绍了如何通过Spark shell来快速地运用API。本文将介绍如何快速地利用Spark提供的API开发Standalone模式的应用程序。Spark支持三种程序语言的开发：Scala (利用SBT进行编译), Java (利用Maven进行编译)以及Python。下面我将分别用Scala、Java和Python开发同样功能的程序：一、Scala

w397090770 10年前 (2014-06-10) 16405℃ 2评论7喜欢

Spark快速入门指南(Quick Start Spark)

　　这个文档只是简单的介绍如何快速地使用Spark。在下面的介绍中我将介绍如何通过Spark的交互式shell来使用API。Basics　　Spark shell提供一种简单的方式来学习它的API，同时也提供强大的方式来交互式地分析数据。Spark shell支持Scala和Python。可以通过以下方式进入到Spark shell中。[code lang="JAVA"]# 本文原文地址：https://www.iteblog.com/ar

w397090770 10年前 (2014-06-10) 77032℃ 26评论156喜欢

用Maven编译Spark 1.0.0源码以错误解决

　　写在前面的话，最近发现有很多网站转载我博客的文章，这个我都不介意的，但是这些网站转载我博客都将文章的出处去掉了，直接变成自己的文章了！！我强烈谴责他们，鄙视那些转载文章去掉出处的人！所以为了防止这些，我以后发表文章的时候，将会在文章里面加入一些回复之后才可见的内容！！请大家不要介意，本博

w397090770 10年前 (2014-06-06) 30497℃ 40评论6喜欢

Spark 1.0.0于5月30日正式发布

　　Spark 1.0.0于5月30日正式发布，可以到http://spark.apache.org/downloads.html页面下载。Spark 1.0.0是一个主要版本，它标志着Spark已经进入了1.X的时代。这个版本的Spark带来了很多新特性和强API的支持。 Spark 1.0加入了一个主要的组件： Spark SQL，这个组件支持在Spark上存储和操作结构化的数据。已有的标准库比如ML、Streaming和GraphX也得到了很大

w397090770 10年前 (2014-06-04) 5273℃ 1评论3喜欢

Apache Flume-ng 1.5.0正式发布

　　Apache Flume 1.5.0 发布于5月22日正式发布（可以在http://flume.apache.org/download.html下载）。Flume是一个分布式、可靠和高可用的服务，用于收集、聚合以及移动大量日志数据，使用一个简单灵活的架构，就流数据模型。这是一个可靠、容错的服务。下面是Apache Flume-ng 1.5.0的Changelog：What's new in Apache Flume 1.5.0:May 22nd, 2014New Feature: Int

w397090770 10年前 (2014-05-27) 6958℃ 1评论4喜欢

基于flume-ng 1.4.0的TailSource程序开发

　　写在前面的话，最近发现有很多网站转载我博客的文章，这个我都不介意的，但是这些网站转载我博客都将文章的出处去掉了，直接变成自己的文章了！！我强烈谴责他们，鄙视那些转载文章去掉出处的人！所以为了防止这些，我以后发表文章的时候，将会在文章里面加入一些回复之后才可见的内容！！请大家不要介意，本博

w397090770 10年前 (2014-05-20) 21704℃ 58评论31喜欢

基于Hadoop-2.2.0编译flume-ng 1.4.0及错误解决

　　写在前面的话，最近发现有很多网站转载我博客的文章，这个我都不介意的，但是这些网站转载我博客都将文章的出处去掉了，直接变成自己的文章了！！我强烈谴责他们，鄙视那些转载文章去掉出处的人！所以为了防止这些，我以后发表文章的时候，将会在文章里面加入一些回复之后才可见的内容！！请大家不要介意，本博

w397090770 10年前 (2014-05-13) 14072℃ 30评论3喜欢

Shark 0.9.1安装遇到的问题及解决办法

这几天在集群上部署了Shark 0.9.1，我下载的是已经编译好的，Hadoop版本是2.2.0，下面就总结一下我在安装Shark的过程中遇到的问题及其解决方案。一、YARN mode not available ?[code lang="JAVA"]Exception in thread "main" org.apache.spark.SparkException: YARN mode not available ? at org.apache.spark.SparkContext$.org$apache$spark$SparkContext$$createTaskScheduler(SparkContext.

w397090770 10年前 (2014-05-05) 15994℃ 3评论4喜欢

Spark在Yarn上运行Wordcount程序

　　我们在接触Hadoop的时候，第一个列子一般是运行Wordcount程序，在Spark我们可以用Java代码写一个Wordcount程序并部署在Yarn上运行。我们知道，在Spark源码中就存在一个用Java编写好的JavaWordCount程序，源码如下：[code lang="JAVA"]package org.apache.spark.examples;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apac

w397090770 10年前 (2014-05-04) 28197℃ 1评论18喜欢

Shark对Hive的兼容性总结

　　Shark是一种分布式SQL查询工具，它的设计目标就是兼容Hive，今天就来总结一下Shark对Hive特性的兼容。　　一、Shark可以直接部署在Hive的数据仓库上。支持Hive的绝大多数特性，具体如下： Hive查询语句，包括以下： SELECT GROUP_BY ORDER_BY CLUSTER_BY SORT_BY 支持Hive中所有的操作符：关系运算符（=, ⇔, ==, <>, <, &

w397090770 10年前 (2014-04-30) 7230℃ 1评论4喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

分类：海量数据处理

Spark Standalone模式应用程序开发

Spark快速入门指南(Quick Start Spark)

用Maven编译Spark 1.0.0源码以错误解决

Spark 1.0.0于5月30日正式发布

Apache Flume-ng 1.5.0正式发布

基于flume-ng 1.4.0的TailSource程序开发

基于Hadoop-2.2.0编译flume-ng 1.4.0及错误解决

Shark 0.9.1安装遇到的问题及解决办法

Spark在Yarn上运行Wordcount程序

Shark对Hive的兼容性总结