欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

标签:Spark

Hadoop

SQL on Hadoop:场景和结论

SQL on Hadoop:场景和结论
以下文章是转载自国外网站,介绍了Hadoop生态系统上面的几种SQL:Hive、Drill、Impala、Presto以及Spark\Shark等应用场景、对比以及一些结论Within the big data landscape there are multiple approaches to accessing, analyzing, and manipulating data in Hadoop. Each depends on key considerations such as latency, ANSI SQL completeness (and the ability to tolerate machine-generated SQL), developer and a

w397090770   7年前 (2014-08-11) 9682℃ 0评论14喜欢

Spark

Spark Release 1.0.2发布

Spark Release 1.0.2发布
  Spark Release 1.0.2于2014年8月5日发布,Spark 1.0.2 is a maintenance release with bug fixes. This release is based on the branch-1.0 maintenance branch of Spark. We recommend all 1.0.x users to upgrade to this stable release. Contributions to this release came from 30 developers.如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopYou can download Spark 1.0.2 as

w397090770   7年前 (2014-08-06) 5602℃ 2评论4喜欢

Spark

Spark稳定版0.9.2版本发布

Spark稳定版0.9.2版本发布
  Spark 0.9.2于昨天(2014年07月23日)发布。对,你没看错,是Spark 0.9.2。Spark 0.9.2是基于0.9的分枝,修复了一些bug,推荐所有使用0.9.x的用户升级到这个稳定版本。有28位开发者参与了这次版本的开发。虽然Spark已经发布了Spark 1.0.x,但是里面有不少的bug,这次的Spark是稳定版。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关

w397090770   7年前 (2014-07-24) 4424℃ 0评论3喜欢

Hadoop

如何在CDH 5上运行Spark应用程序

如何在CDH 5上运行Spark应用程序
本文转载自:http://blog.cloudera.com/blog/2014/04/how-to-run-a-simple-apache-spark-app-in-cdh-5/(Editor’s note – this post has been updated to reflect CDH 5.1/Spark 1.0)Apache Spark is a general-purpose, cluster computing framework that, like MapReduce in Apache Hadoop, offers powerful abstractions for processing large datasets. For various reasons pertaining to performance, functionality, and APIs, Spark is already be

w397090770   7年前 (2014-07-18) 19638℃ 3评论8喜欢

Spark

Spark 1.0.1发布了

Spark 1.0.1发布了
  2014年7月11日,Spark 1.0.1已经发布了,原文如下:We are happy to announce the availability of Spark 1.0.1! This release includes contributions from 70 developers. Spark 1.0.0 includes fixes across several areas of Spark, including the core API, PySpark, and MLlib. It also includes new features in Spark’s (alpha) SQL library, including support for JSON data and performance and stability fixes.Visit the relea

w397090770   7年前 (2014-07-13) 6702℃ 0评论4喜欢

Spark

Java 8的lambda使得编写Spark应用更简单

Java 8的lambda使得编写Spark应用更简单
  Spark的其中一个目标就是使得大数据应用程序的编写更简单。Spark的Scala和Python的API接口很简洁;但由于Java缺少函数表达式(function expressions), 使得Java API有些冗长。Java 8里面增加了lambda表达式,Spark开发者们更新了Spark的API来支持Java8的lambda表达式,而且与旧版本的Java保持兼容。这些支持将会在Spark 1.0可用。如果想及时了解

w397090770   7年前 (2014-07-10) 12736℃ 0评论17喜欢

Flume

Spark和Flume-ng整合

Spark和Flume-ng整合
  在本博客的《Spark读取Hbase中的数据》文章中我谈到了如何用Spark和Hbase整合的过程以及代码的编写测试等。今天我们继续谈谈Spark如何和Flume-ng进行整合,也就是如何将Flune-ng里面的数据发送到Spark,利用Spark进行实时的分析计算。本文将通过Java和Scala版本的程序进行程序的测试。  Spark和Flume-ng的整合属于Spark的Streaming这块。在

w397090770   7年前 (2014-07-08) 22779℃ 4评论17喜欢

HBase

Spark读取Hbase中的数据

Spark读取Hbase中的数据
Spark和Flume-ng整合,可以参见本博客:《Spark和Flume-ng整合》《使用Spark读取HBase中的数据》如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop  大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用parallelize函数直接从集合中获取数据,并存入RDD中;Java版本如

w397090770   7年前 (2014-06-29) 73666℃ 47评论58喜欢

Spark

Spark Standalone模式应用程序开发

Spark Standalone模式应用程序开发
  在本博客的《Spark快速入门指南(Quick Start Spark)》文章中简单地介绍了如何通过Spark shell来快速地运用API。本文将介绍如何快速地利用Spark提供的API开发Standalone模式的应用程序。Spark支持三种程序语言的开发:Scala (利用SBT进行编译), Java (利用Maven进行编译)以及Python。下面我将分别用Scala、Java和Python开发同样功能的程序:一、Scala

w397090770   7年前 (2014-06-10) 16059℃ 2评论7喜欢

Spark

Spark快速入门指南(Quick Start Spark)

Spark快速入门指南(Quick Start Spark)
  这个文档只是简单的介绍如何快速地使用Spark。在下面的介绍中我将介绍如何通过Spark的交互式shell来使用API。Basics  Spark shell提供一种简单的方式来学习它的API,同时也提供强大的方式来交互式地分析数据。Spark shell支持Scala和Python。可以通过以下方式进入到Spark shell中。[code lang="JAVA"]# 本文原文地址:https://www.iteblog.com/ar

w397090770   7年前 (2014-06-10) 76213℃ 26评论152喜欢