欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:1037
  2. 浏览总数:13,627,945
  3. 评论:4107
  4. 分类目录:108 个
  5. 注册用户数:6957
  6. 最后更新:2019年6月27日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
Hadoop技术博文:
bigdata_ai

 分类:Spark

Spark读取Hbase中的数据

Spark读取Hbase中的数据
Spark和Flume-ng整合,可以参见本博客:《Spark和Flume-ng整合》《使用Spark读取HBase中的数据》如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop  大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用parallelize函数直接从集合中获取数据,并存入RDD中;Java版本如

w397090770   5年前 (2014-06-29) 70822℃ 47评论57喜欢

Spark Standalone模式应用程序开发

Spark Standalone模式应用程序开发
  在本博客的《Spark快速入门指南(Quick Start Spark)》文章中简单地介绍了如何通过Spark shell来快速地运用API。本文将介绍如何快速地利用Spark提供的API开发Standalone模式的应用程序。Spark支持三种程序语言的开发:Scala (利用SBT进行编译), Java (利用Maven进行编译)以及Python。下面我将分别用Scala、Java和Python开发同样功能的程序:一、Scala

w397090770   5年前 (2014-06-10) 15420℃ 2评论7喜欢

Spark快速入门指南(Quick Start Spark)

Spark快速入门指南(Quick Start Spark)
  这个文档只是简单的介绍如何快速地使用Spark。在下面的介绍中我将介绍如何通过Spark的交互式shell来使用API。Basics  Spark shell提供一种简单的方式来学习它的API,同时也提供强大的方式来交互式地分析数据。Spark shell支持Scala和Python。可以通过以下方式进入到Spark shell中。[code lang="JAVA"]# 本文原文地址:https://www.iteblog.com/ar

w397090770   5年前 (2014-06-10) 74563℃ 26评论146喜欢

用Maven编译Spark 1.0.0源码以错误解决

用Maven编译Spark 1.0.0源码以错误解决
  写在前面的话,最近发现有很多网站转载我博客的文章,这个我都不介意的,但是这些网站转载我博客都将文章的出处去掉了,直接变成自己的文章了!!我强烈谴责他们,鄙视那些转载文章去掉出处的人!所以为了防止这些,我以后发表文章的时候,将会在文章里面加入一些回复之后才可见的内容!!请大家不要介意,本博

w397090770   5年前 (2014-06-06) 27750℃ 40评论6喜欢

Spark 1.0.0于5月30日正式发布

Spark 1.0.0于5月30日正式发布
  Spark 1.0.0于5月30日正式发布,可以到http://spark.apache.org/downloads.html页面下载。Spark 1.0.0是一个主要版本,它标志着Spark已经进入了1.X的时代。这个版本的Spark带来了很多新特性和强API的支持。 Spark 1.0加入了一个主要的组件: Spark SQL,这个组件支持在Spark上存储和操作结构化的数据。已有的标准库比如ML、Streaming和GraphX也得到了很大

w397090770   5年前 (2014-06-04) 4663℃ 1评论2喜欢

Shark 0.9.1安装遇到的问题及解决办法

Shark 0.9.1安装遇到的问题及解决办法
这几天在集群上部署了Shark 0.9.1,我下载的是已经编译好的,Hadoop版本是2.2.0,下面就总结一下我在安装Shark的过程中遇到的问题及其解决方案。一、YARN mode not available ?[code lang="JAVA"]Exception in thread "main" org.apache.spark.SparkException: YARN mode not available ? at org.apache.spark.SparkContext$.org$apache$spark$SparkContext$$createTaskScheduler(SparkContext.

w397090770   5年前 (2014-05-05) 15146℃ 3评论4喜欢

Spark在Yarn上运行Wordcount程序

Spark在Yarn上运行Wordcount程序
  我们在接触Hadoop的时候,第一个列子一般是运行Wordcount程序,在Spark我们可以用Java代码写一个Wordcount程序并部署在Yarn上运行。我们知道,在Spark源码中就存在一个用Java编写好的JavaWordCount程序,源码如下:[code lang="JAVA"]package org.apache.spark.examples;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apac

w397090770   5年前 (2014-05-04) 27059℃ 1评论18喜欢

Shark对Hive的兼容性总结

Shark对Hive的兼容性总结
  Shark是一种分布式SQL查询工具,它的设计目标就是兼容Hive,今天就来总结一下Shark对Hive特性的兼容。  一、Shark可以直接部署在Hive的数据仓库上。支持Hive的绝大多数特性,具体如下: Hive查询语句,包括以下: SELECT GROUP_BY ORDER_BY CLUSTER_BY SORT_BY 支持Hive中所有的操作符: 关系运算符(=, ⇔, ==, <>, <, &

w397090770   5年前 (2014-04-30) 6125℃ 1评论4喜欢

Spark 0.9.1 Standalone模式简单例子测试

Spark 0.9.1 Standalone模式简单例子测试
  在本博客的《Spark 0.9.1 Standalone模式分布式部署》详细的介绍了如何部署Spark Standalone的分布式,在那篇文章中并没有介绍如何来如何来测试,今天我就来介绍如何用Java来编写简单的程序,并在Standalone模式下运行。  程序的名称为SimpleApp.java,通过调用Spark提供的API进行的,在程序编写前现在pom引入相应的jar依赖:[code lang="JA

w397090770   5年前 (2014-04-24) 6938℃ 0评论2喜欢

Spark 0.9.1 Standalone模式分布式部署

Spark 0.9.1 Standalone模式分布式部署
  在本博客的《Spark 0.9.1源码编译》和《Spark源码编译遇到的问题解决》两篇文章中,分别讲解了如何编译Spark源码以及在编译源码过程中遇到的一些问题及其解决方法。今天来说说如何部署分布式的Spark集群,在本篇文章中,我主要是介绍如何部署Standalone模式。  一、修改配置文件  1、将$SPARK_HOME/conf/spark-env.sh.template文件

w397090770   5年前 (2014-04-21) 8759℃ 1评论5喜欢