欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:1013
  2. 浏览总数:12,643,245
  3. 评论:4033
  4. 分类目录:106 个
  5. 注册用户数:6491
  6. 最后更新:2019年3月20日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
大数据猿:
bigdata_ai

标签:Spark

HBase

Spark读取Hbase中的数据

Spark读取Hbase中的数据
Spark和Flume-ng整合,可以参见本博客:《Spark和Flume-ng整合》《使用Spark读取HBase中的数据》如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop  大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用parallelize函数直接从集合中获取数据,并存入RDD中;Java版本如

w397090770   5年前 (2014-06-29) 69590℃ 47评论53喜欢

Spark

Spark Standalone模式应用程序开发

Spark Standalone模式应用程序开发
  在本博客的《Spark快速入门指南(Quick Start Spark)》文章中简单地介绍了如何通过Spark shell来快速地运用API。本文将介绍如何快速地利用Spark提供的API开发Standalone模式的应用程序。Spark支持三种程序语言的开发:Scala (利用SBT进行编译), Java (利用Maven进行编译)以及Python。下面我将分别用Scala、Java和Python开发同样功能的程序:一、Scala

w397090770   5年前 (2014-06-10) 15288℃ 1评论6喜欢

Spark

Spark快速入门指南(Quick Start Spark)

Spark快速入门指南(Quick Start Spark)
  这个文档只是简单的介绍如何快速地使用Spark。在下面的介绍中我将介绍如何通过Spark的交互式shell来使用API。Basics  Spark shell提供一种简单的方式来学习它的API,同时也提供强大的方式来交互式地分析数据。Spark shell支持Scala和Python。可以通过以下方式进入到Spark shell中。[code lang="JAVA"]# 本文原文地址:http://www.iteblog.com/arc

w397090770   5年前 (2014-06-10) 73962℃ 25评论146喜欢

Spark

用Maven编译Spark 1.0.0源码以错误解决

用Maven编译Spark 1.0.0源码以错误解决
  写在前面的话,最近发现有很多网站转载我博客的文章,这个我都不介意的,但是这些网站转载我博客都将文章的出处去掉了,直接变成自己的文章了!!我强烈谴责他们,鄙视那些转载文章去掉出处的人!所以为了防止这些,我以后发表文章的时候,将会在文章里面加入一些回复之后才可见的内容!!请大家不要介意,本博

w397090770   5年前 (2014-06-06) 26915℃ 39评论6喜欢

Spark

Spark 1.0.0于5月30日正式发布

Spark 1.0.0于5月30日正式发布
  Spark 1.0.0于5月30日正式发布,可以到http://spark.apache.org/downloads.html页面下载。Spark 1.0.0是一个主要版本,它标志着Spark已经进入了1.X的时代。这个版本的Spark带来了很多新特性和强API的支持。 Spark 1.0加入了一个主要的组件: Spark SQL,这个组件支持在Spark上存储和操作结构化的数据。已有的标准库比如ML、Streaming和GraphX也得到了很大

w397090770   5年前 (2014-06-04) 4616℃ 1评论2喜欢

Shark

Shark 0.9.1安装遇到的问题及解决办法

Shark 0.9.1安装遇到的问题及解决办法
这几天在集群上部署了Shark 0.9.1,我下载的是已经编译好的,Hadoop版本是2.2.0,下面就总结一下我在安装Shark的过程中遇到的问题及其解决方案。一、YARN mode not available ?[code lang="JAVA"]Exception in thread "main" org.apache.spark.SparkException: YARN mode not available ? at org.apache.spark.SparkContext$.org$apache$spark$SparkContext$$createTaskScheduler(SparkContext.

w397090770   5年前 (2014-05-05) 15059℃ 3评论4喜欢

Spark

Spark在Yarn上运行Wordcount程序

Spark在Yarn上运行Wordcount程序
  我们在接触Hadoop的时候,第一个列子一般是运行Wordcount程序,在Spark我们可以用Java代码写一个Wordcount程序并部署在Yarn上运行。我们知道,在Spark源码中就存在一个用Java编写好的JavaWordCount程序,源码如下:[code lang="JAVA"]package org.apache.spark.examples;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apac

w397090770   5年前 (2014-05-04) 26953℃ 1评论17喜欢

Spark

Spark 0.9.1 Standalone模式分布式部署

Spark 0.9.1 Standalone模式分布式部署
  在本博客的《Spark 0.9.1源码编译》和《Spark源码编译遇到的问题解决》两篇文章中,分别讲解了如何编译Spark源码以及在编译源码过程中遇到的一些问题及其解决方法。今天来说说如何部署分布式的Spark集群,在本篇文章中,我主要是介绍如何部署Standalone模式。  一、修改配置文件  1、将$SPARK_HOME/conf/spark-env.sh.template文件

w397090770   5年前 (2014-04-21) 8701℃ 1评论5喜欢

Spark

Spark 0.9.1源码编译

Spark 0.9.1源码编译
  根据官方文档,Spark可以用Maven进行编译,但是我试了好几个版本都编译不通过,所以没用(如果大家用Maven编译通过了Spark,求分享。)。这里是利用sbt对Spark进行编译。中间虽然也遇到了很多问题,但是经过几天的折腾,终于通过了,关于如何解决编译中间出现的问题,可以参见本博客的《Spark源码编译遇到的问题解决》进行

w397090770   5年前 (2014-04-18) 10196℃ 3评论6喜欢

Hadoop

Spark源码编译遇到的问题解决

Spark源码编译遇到的问题解决
1、内存不够[code lang="JAVA"][ERROR] PermGen space -> [Help 1][ERROR] [ERROR] To see the full stack trace of the errors,re-run Maven with the -e switch.[ERROR] Re-run Maven using the -X switch to enable full debug logging.[ERROR] [ERROR] For more information about the errors and possible solutions, please read the following articles:[ERROR] [Help 1]http://cwiki.apache.org/confluence/display/MAVEN/OutOfMemoryErr

w397090770   5年前 (2014-04-16) 14135℃ 4评论9喜欢