欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:961
  2. 浏览总数:11,511,865
  3. 评论:3873
  4. 分类目录:103 个
  5. 注册用户数:5854
  6. 最后更新:2018年10月17日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
大数据猿:
bigdata_ai

2017年03月的内容

Hadoop

Apache Hadoop 2.8.0正式发布

Apache Hadoop 2.8.0正式发布
  时隔两年,Apache Hadoop终于又有大改版,Apache基金会近日发布了Hadoop 2.8版,一次新增了2,919项更新功能或新特色。不过,Hadoop官网建议,2.8.0仍有少数功能在测试,要等到释出2.8.1或是2.8.2版才适合用于正式环境。在2.8.0版众多更新,主要分布于4大套件分别是:共用套件(Common)底层分散式档案系统HDFS套件(HDFS)MapReduce运算

w397090770   2年前 (2017-03-31) 1859℃ 2评论17喜欢

Spark

Apache Hivemall:可运行在Hive, Spark 和 Pig 上的可扩展机器学习库

Apache Hivemall:可运行在Hive, Spark 和 Pig 上的可扩展机器学习库
  Apache Hivemall是机器学习算法(machine learning algorithms)和多功能数据分析函数(versatile data analytics functions)的集合,它通过Apache Hive UDF / UDAF / UDTF接口提供了一些易于使用的机器学习算法。Hivemall 最初由Treasure Data 开发的,并于2016年9月捐献给 Apache 软件基金会,进入了Apache 孵化器。  Apache Hivemall提供了各种功能包括:回归(

w397090770   2年前 (2017-03-29) 1918℃ 1评论9喜欢

Rheem

Rheem:可扩展且易于使用的跨平台大数据分析系统

Rheem:可扩展且易于使用的跨平台大数据分析系统
  RHEEM是一个可扩展且易于使用的跨平台大数据分析系统,它在现有的数据处理平台之上提供了一个抽象。它允许用户使用易于使用的编程接口轻松地编写数据分析任务,为开发者提供了不同的方式进行性能优化,编写好的程序可以在任意数据处理平台上运行,这其中包括:PostgreSQL, Spark, Hadoop MapReduce或者Flink等;Rheem将选择经典

w397090770   2年前 (2017-03-23) 504℃ 0评论2喜欢

Spark

object not serializable (class: org.apache.hadoop.hbase.io.ImmutableBytesWritable)

object not serializable (class: org.apache.hadoop.hbase.io.ImmutableBytesWritable)
在使用Spark操作Hbase的时候,其返回的数据类型是RDD[ImmutableBytesWritable,Result],我们可能会对这个结果进行其他的操作,比如join等,但是因为org.apache.hadoop.hbase.io.ImmutableBytesWritable 和 org.apache.hadoop.hbase.client.Result 并没有实现 java.io.Serializable 接口,程序在运行的过程中可能发生以下的异常:[code lang="bash"]Serialization stack: - object not ser

w397090770   2年前 (2017-03-23) 1965℃ 0评论11喜欢

Spark

Spark Structured Streaming入门编程指南

Spark Structured Streaming入门编程指南
概览  Structured Streaming 是一个可拓展,容错的,基于Spark SQL执行引擎的流处理引擎。使用小量的静态数据模拟流处理。伴随流数据的到来,Spark SQL引擎会逐渐连续处理数据并且更新结果到最终的Table中。你可以在Spark SQL上引擎上使用DataSet/DataFrame API处理流数据的聚集,事件窗口,和流与批次的连接操作等。最后Structured Streaming

zz~~   2年前 (2017-03-22) 5936℃ 2评论7喜欢

Hadoop

深入理解Hadoop Streaming

深入理解Hadoop Streaming
Hadoop Streaming 是 Hadoop 提供的一个 MapReduce 编程工具,它允许用户使用任何可执行文件、脚本语言或其他编程语言来实现 Mapper 和 Reducer 作业。比如下面的例子[code lang="bash"]mapred streaming \ -input myInputDirs \ -output myOutputDir \ -mapper /bin/cat \ -reducer /usr/bin/wc[/code]Hadoop Streaming程序是如何工作的Hadoop Streaming 使用了 Unix 的标准

w397090770   2年前 (2017-03-21) 3169℃ 0评论12喜欢

Hadoop

HDFS Federation在美团点评的应用与改进

HDFS Federation在美团点评的应用与改进
  HDFS Federation为HDFS系统提供了NameNode横向扩容能力。然而作为一个已实现多年的解决方案,真正应用到已运行多年的大规模集群时依然存在不少的限制和问题。本文以实际应用场景出发,介绍了HDFS Federation在美团点评的实际应用经验。 背景   2015年10月,经过一段时间的优化与改进,美团点评HDFS集群稳定性和性能有显著

zz~~   2年前 (2017-03-17) 1095℃ 0评论5喜欢

Hadoop

使用JavaScript编写MapReduce程序并运行在Hadoop集群上

使用JavaScript编写MapReduce程序并运行在Hadoop集群上
  Hadoop Streaming 是 Hadoop 提供的一个 MapReduce 编程工具,它允许用户使用任何可执行文件、脚本语言或其他编程语言来实现 Mapper 和 Reducer,从而充分利用 Hadoop 并行计算框架的优势和能力,来处理大数据。而我们在官方文档或者是Hadoop权威指南看到的Hadoop Streaming例子都是使用 Ruby 或者 Python 编写的,官方说可以使用任何可执行文件

w397090770   2年前 (2017-03-14) 1153℃ 0评论2喜欢

CarbonData

Spark 2.1.0与CarbonData 1.0.0集群模式部署及使用入门指南

Spark 2.1.0与CarbonData 1.0.0集群模式部署及使用入门指南
本文作者:李寅威,从事大数据、机器学习方面的工作,目前就职于CVTE联系方式:微信(coridc),邮箱(251469031@qq.com)原文链接: Spark2.1.0 + CarbonData1.0.0集群模式部署及使用入门1 引言  Apache CarbonData是一个面向大数据平台的基于索引的列式数据格式,由华为大数据团队贡献给Apache社区,目前最新版本是1.0.0版。介于

zz~~   2年前 (2017-03-13) 2709℃ 0评论9喜欢

Flink

Flink四种选择Key的方法

Flink四种选择Key的方法
在Flink中有许多函数需要我们为其指定key,比如groupBy,Join中的where等。如果我们指定的Key不对,可能会出现一些问题,正如下面的程序:[code lang="scala"]package com.iteblog.flinkimport org.apache.flink.api.scala.{ExecutionEnvironment, _}import org.apache.flink.util.Collector///////////////////////////////////////////////////////////////////// User: 过往记忆 Date: 2017

w397090770   2年前 (2017-03-13) 2838℃ 9评论9喜欢