六月 – 2014 – 过往记忆

Spark读取Hbase中的数据

Spark和Flume-ng整合，可以参见本博客：《Spark和Flume-ng整合》《使用Spark读取HBase中的数据》如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop　　大家可能都知道很熟悉Spark的两种常见的数据读取方式（存放到RDD中）：（1）、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如

w397090770 11年前 (2014-06-29) 75050℃ 47评论58喜欢

Kafka

Kafka分布式集群部署手册(二)

　　在本博客的《Apache Kafka-0.8.1.1源码编译》文章中简单地谈到如何用gradlew或sbt编译Kafka 0.8.1.1的代码。今天主要来谈谈如何部署一个分布式集群。以下本文所有的内容都是基于Kafka 0.8.1.1（Kafka 0.7.x的操作命令和本文略有不同，请注意！）在介绍Kafka分布式部署之前，先来了解一下Kafka的基本概念。　　（1）Kafka维护按类区分的消息

w397090770 11年前 (2014-06-25) 9197℃ 0评论5喜欢

Kafka

Kafka分布式集群部署手册(一)

　　在本博客的《Apache Kafka-0.8.1.1源码编译》文章中简单地谈到如何用gradlew或sbt编译Kafka 0.8.1.1的代码。今天主要来谈谈如何部署一个分布式集群。以下本文所有的内容都是基于Kafka 0.8.1.1（Kafka 0.7.x的操作命令和本文略有不同，请注意！）在介绍Kafka分布式部署之前，先来了解一下Kafka的基本概念。　　（1）Kafka维护按类区分的消息

w397090770 11年前 (2014-06-23) 19131℃ 0评论20喜欢

Flume

Apache Kafka-0.8.1.1源码编译

　　经过近一个月时间，终于差不多将之前在Flume 0.9.4上面编写的source、sink等插件迁移到Flume-ng 1.5.0，包括了将Flume 0.9.4上面的TailSource、TailDirSource等插件的迁移（当然，我们加入了许多新的功能，比如故障恢复、日志的断点续传、按块发送日志以及每个一定的时间轮询发送日志而不是等一个日志发送完才发送另外一个日志）。现在

w397090770 11年前 (2014-06-18) 17547℃ 13评论15喜欢

Flume

用Maven编译Apache flume-ng 1.5.0源码及问题解决

　　在今年的5月22号，Flume-ng 1.5.0版本正式发布，关于Flume-ng 1.5.0版本的新特性可以参见本博客的《Apache Flume-ng 1.5.0正式发布》进行了解。关于Apache flume-ng 1.4.0版本的编译可以参见本博客《基于Hadoop-2.2.0编译flume-ng 1.4.0及错误解决》。本文将讲述如何用Maven编译Apache flume-ng 1.5.0源码。一、到官方网站下载相应版本的flume-ng源码[code lan

w397090770 11年前 (2014-06-16) 20837℃ 23评论14喜欢

Spark

Spark Standalone模式应用程序开发

　　在本博客的《Spark快速入门指南(Quick Start Spark)》文章中简单地介绍了如何通过Spark shell来快速地运用API。本文将介绍如何快速地利用Spark提供的API开发Standalone模式的应用程序。Spark支持三种程序语言的开发：Scala (利用SBT进行编译), Java (利用Maven进行编译)以及Python。下面我将分别用Scala、Java和Python开发同样功能的程序：一、Scala

w397090770 11年前 (2014-06-10) 16443℃ 2评论7喜欢

Spark

Spark快速入门指南(Quick Start Spark)

　　这个文档只是简单的介绍如何快速地使用Spark。在下面的介绍中我将介绍如何通过Spark的交互式shell来使用API。Basics　　Spark shell提供一种简单的方式来学习它的API，同时也提供强大的方式来交互式地分析数据。Spark shell支持Scala和Python。可以通过以下方式进入到Spark shell中。[code lang="JAVA"]# 本文原文地址：https://www.iteblog.com/ar

w397090770 11年前 (2014-06-10) 77106℃ 26评论156喜欢

网站建设

解决Google搜索无法使用的几种方法

　　最新Google IP地址请到《Google最新IP》里面获取。　　最新的Google访问方法请查看《最新Google翻墙办法》　　根据Google透明度报告显示，从5月27日开始，Google的部分服务开始被屏蔽，其中最主要的是HTTPS搜索服务和Google登录服务，所有版本的Google都受到影响，包括Google.hk和Google.com等。　　此次屏蔽的方法主要屏蔽Google

w397090770 11年前 (2014-06-09) 32075℃ 4评论32喜欢

Spark

用Maven编译Spark 1.0.0源码以错误解决

　　写在前面的话，最近发现有很多网站转载我博客的文章，这个我都不介意的，但是这些网站转载我博客都将文章的出处去掉了，直接变成自己的文章了！！我强烈谴责他们，鄙视那些转载文章去掉出处的人！所以为了防止这些，我以后发表文章的时候，将会在文章里面加入一些回复之后才可见的内容！！请大家不要介意，本博

w397090770 11年前 (2014-06-06) 30690℃ 40评论6喜欢

Spark

Spark 1.0.0于5月30日正式发布

　　Spark 1.0.0于5月30日正式发布，可以到http://spark.apache.org/downloads.html页面下载。Spark 1.0.0是一个主要版本，它标志着Spark已经进入了1.X的时代。这个版本的Spark带来了很多新特性和强API的支持。 Spark 1.0加入了一个主要的组件： Spark SQL，这个组件支持在Spark上存储和操作结构化的数据。已有的标准库比如ML、Streaming和GraphX也得到了很大

w397090770 11年前 (2014-06-04) 5341℃ 1评论3喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

2014年06月的内容

Spark读取Hbase中的数据

Kafka分布式集群部署手册(二)

Kafka分布式集群部署手册(一)

Apache Kafka-0.8.1.1源码编译

用Maven编译Apache flume-ng 1.5.0源码及问题解决

Spark Standalone模式应用程序开发

Spark快速入门指南(Quick Start Spark)

解决Google搜索无法使用的几种方法

用Maven编译Spark 1.0.0源码以错误解决

Spark 1.0.0于5月30日正式发布