欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

有关【Hadoop】的内容

Spark

Spark 2.0介绍:Spark SQL中的Time Window使用

Spark 2.0介绍:Spark SQL中的Time Window使用
  《Spark 2.0技术预览:更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化,为该框架明年的发展奠定了方向,所以了解Spark 2.0的一些特性对我们......

w397090770   9年前 (2016-07-12) 9897℃ 4评论11喜欢

Spark

Spark中函数addFile和addJar函数介绍

Spark中函数addFile和addJar函数介绍
  我们在使用Spark的时候有时候需要将一些数据分发到计算节点中。一种方法是将这些文件上传到HDFS上,然后计算节点从HDFS上获取这些数据。当然我们也可以使用addFile函数来分发这些文件。addFile  addFile方法可以接收本地文件(或者HDFS上的文件),甚至是文件夹(如......

w397090770   9年前 (2016-07-11) 12776℃ 0评论13喜欢

CarbonData

Apache CarbonData集群模式使用指南

Apache CarbonData集群模式使用指南
  我们在《Apache CarbonData快速入门编程指南》文章中介绍了如何快速使用Apache CarbonData,为了简单起见,我们展示了如何在单机模式下使用Apache CarbonData。但是生产环境下一般都是使用集群模式,本文主要介绍如何在集群模式下使用Apache CarbonData。启动Spark she......

w397090770   9年前 (2016-07-07) 2672℃ 1评论3喜欢

Spark

Spark 2.0介绍:Catalog API介绍和使用

Spark 2.0介绍:Catalog API介绍和使用
《Spark 2.0技术预览:更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化,为该框架明年的发展奠定了方向,所以了解Spark 2.0的一些特性对我们能够......

w397090770   9年前 (2016-07-05) 9028℃ 0评论12喜欢

CarbonData

Apache CarbonData快速入门编程指南

Apache CarbonData快速入门编程指南
  CarbonData是由华为开发、开源并支持Apache Hadoop的列式存储文件格式,支持索引、压缩以及解编码等,其目的是为了实现同一份数据达到多种需求,而且能够实现更快的交互查询。目前该项目正处于Apache孵化过程中。详情参见《CarbonData:华为开发并支持Hadoop的列式文件......

w397090770   9年前 (2016-07-01) 8459℃ 3评论6喜欢

Hive

Hive中Reduce个数是如何计算的

Hive中Reduce个数是如何计算的
  我们在使用Hive查询数据的时候经常会看到如下的输出:Query ID = iteblog_20160704104520_988f81d4-0b82-4778-af98-43cc1950d357Total jobs = 1Launching Job 1 out of 1Number of reduce tasks determined at compile time: 1In order to change the averag......

w397090770   9年前 (2016-06-28) 15311℃ 1评论39喜欢

Spark

通过分区(Partitioning)提高Spark的运行性能

通过分区(Partitioning)提高Spark的运行性能
在Sortable公司,很多数据处理的工作都是使用Spark完成的。在使用Spark的过程中他们发现了一个能够提高Spark job性能的一个技巧,也就是修改数据的分区数,本文将举个例子并详细地介绍如何做到的。查找质数比如我们需要从2到2000000之间寻找所有的质数。我们很自然地会想......

w397090770   9年前 (2016-06-24) 23602℃ 2评论45喜欢

Flink

Apache Flink:Table API和SQL发展现状概述

Apache Flink:Table API和SQL发展现状概述
Flink Table API  Apache Flink对SQL的支持可以追溯到一年前发布的0.9.0-milestone1版本。此版本通过引入Table API来提供类似于SQL查询的功能,此功能可以操作分布式的数据集,并且可以自由地和Flink其他API进行组合。Tables在发布之初就支持静态的以及流式数据(也就是提......

w397090770   9年前 (2016-06-16) 4300℃ 0评论5喜欢

Spark

Spark Summit 2016 San Francisco PPT免费下载[共95个]

Spark Summit 2016 San Francisco PPT免费下载[共95个]
  Spark Summit 2016 San Francisco会议于2016年6月06日至6月08日在美国San Francisco进行。本次会议有多达150位Speaker,来自业界顶级的公司。  由于会议的全部资料存储在http://www.slideshare.net网站,此网站需要翻墙才能访问。基于此本站收集了本次会议的所有PPT......

w397090770   9年前 (2016-06-15) 3423℃ 0评论9喜欢

Spark meetup

上海Spark Meetup第九次聚会

上海Spark Meetup第九次聚会
  Shanghai Apache Spark Meetup第九次聚会将在6月18日下午13:00-17:00由Intel联手饿了么在上海市普陀区金沙江路1518弄2号近铁城市广场饿了么公司5楼会议室(榴莲酥+螺狮粉)举行。欢迎大家前来参加!会议主题开场/Opening Keynote: 毕洪宇,饿了么数据运营部副总监  ......

w397090770   9年前 (2016-06-12) 1929℃ 0评论5喜欢