欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:1078
  2. 浏览总数:14,727,512
  3. 评论:4201
  4. 分类目录:114 个
  5. 注册用户数:7085
  6. 最后更新:2019年12月4日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
开发爱好者社区:
bigdata_ai

2017年02月的内容

Spark

[电子书]Spark GraphX in Action PDF下载

[电子书]Spark GraphX in Action PDF下载
  Spark GraphX in Action开头介绍了GraphX库可以干什么,并通过例子介绍了如何以交互的方式使用GraphX 。阅读完本书,您将学习到很多实用的技术,用于增强应用程序和将机器学习算法应用于图形数据中。  本书包括了以下几个知识点:  (1)、Understanding graph technology  (2)、Using the GraphX API  (3)、Developing algorithms

w397090770   3年前 (2017-02-12) 3800℃ 0评论5喜欢

Spark

[电子书]Apache Spark Graph Processing PDF下载

[电子书]Apache Spark Graph Processing PDF下载
  Apache Spark Graph Processing图书由Rindra Ramamonjison所著,全书共148页;Packt Publishing出版社于2015年09月出版。  通过本书你将学习到以下内容  (1)、Write, build and deploy Spark applications with the Scala Build Tool.  (2)、Build and analyze large-scale network datasets  (3)、Analyze and transform graphs using RDD and graph-specific operations  (4)

w397090770   3年前 (2017-02-12) 1224℃ 0评论1喜欢

Spark

[电子书]Machine Learning with Spark PDF下载

[电子书]Machine Learning with Spark PDF下载
  本书介绍了用作各种机器学习模型输入的数据集加载和处理的Spark API的基础知识。书中有详细的示例和现实世界的用例,并探索常见的机器学习模型,包括推荐系统,分类,回归,聚类和降维。最后涵盖了一些高级主题,如使用大规模文本数据以及使用Spark Streaming进行在线机器学习和模型评估的方法。通过本书将学习到以下

w397090770   3年前 (2017-02-12) 2059℃ 0评论4喜欢

Spark

[电子书]Spark Cookbook PDF下载

[电子书]Spark Cookbook PDF下载
  本书重点介绍如何分析大量而且复杂的数据集。本书开头介绍了如何在各种集群管理上安装和配置Apache Spark,其中也会涵盖开发环境的设置。然后介绍了如何通过Spark SQL和实时流对各种数据源进行交互式查询,其中的实时流包括了Twitter Stream 和 Apache Kafka。然后,本书将专注于机器学习,包括监督学习,无监督学习和推荐引擎算

w397090770   3年前 (2017-02-12) 2276℃ 0评论3喜欢

Spark

[电子书]Learning Real-time Processing with Spark Streaming PDF下载

[电子书]Learning Real-time Processing with Spark Streaming PDF下载
  通过使用易于理解的实例,本书将教你如何使用Spark Streaming构建实时应用程序。从安装和设置所需的环境开始,您将编写并执行第一个程序Spark Streaming。接下来将探讨Spark Streaming的架构和组件以及概述Spark公开的库/函数的。接下来,您将通过处理分布式日志文件的用例来了解有关Spark中的各种客户端API编码。然后,您将学习到各

w397090770   3年前 (2017-02-12) 2569℃ 0评论6喜欢

ElasticSearch

Elasticsearch配置参数介绍

Elasticsearch配置参数介绍
  Elasticsearch的config文件夹里面有两个配置文件:elasticsearch.yml和logging.yml。第一个是es的基本配置文件,第二个是日志配置文件,es也是使用log4j来记录日志的,所以logging.yml里的设置按普通log4j配置文件来设置就行了。下面主要讲解下elasticsearch.yml这个文件中可配置的东西。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关

w397090770   3年前 (2017-02-11) 1214℃ 0评论4喜欢

Spark

Spark Summit East 2017部分PPT下载[共18个]

Spark Summit East 2017部分PPT下载[共18个]
  Spark Summit East 2017会议于2017年2月07日到09日在波士顿进行,本次会议有来自工业界的上百位Speaker;官方日程:https://spark-summit.org/east-2017/schedule/。  由于会议的全部资料存储在http://www.slideshare.net网站,此网站需要翻墙才能访问。基于此本站收集了本次会议的所有PPT资料供大家学习交流之用。本次会议PPT资料全部通过爬虫程

w397090770   3年前 (2017-02-11) 1127℃ 0评论1喜欢

Beam

Apache Beam 0.5.0正式发布

Apache Beam 0.5.0正式发布
  今天,Apache Beam 0.5.0 发布了,此版本通过新的State API添加对状态管道的支持,并通过新的Timer API添加对计时器的支持。 此外,该版本还为Elasticsearch和MQ Telemetry Transport(MQTT)添加了新的IO连接器,以及常见的一些错误修复和改进。对于此版本中的所有主要更改,请参阅release notes。如果想及时了解Spark、Hadoop或者Hbase相关的文

w397090770   3年前 (2017-02-10) 560℃ 0评论2喜欢

Beam

为什么Google用Apache Beam彻底替换掉MapReduce

为什么Google用Apache Beam彻底替换掉MapReduce
  1月10日,Apache软件基金会宣布,Apache Beam成功孵化,成为该基金会的一个新的顶级项目,基于Apache V2许可证开源。  2003年,谷歌发布了著名的大数据三篇论文,史称三驾马车:Google FS、MapReduce、BigTable。虽然谷歌没有公布这三个产品的源码,但是她这三个产品的详细设计论文开启了全球的大数据时代!从Doug Cutting大神根据

w397090770   3年前 (2017-02-10) 1380℃ 0评论4喜欢

Hive

Hive 数据抽样的几种方法

Hive 数据抽样的几种方法
在大规模数据量的数据分析及建模任务中,往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源,因此一般情况下只需要抽取一小部分数据进行分析及建模操作。本文就介绍 Hive 中三种数据抽样的方法块抽样(Block Sampling)Hive 本身提供了抽样函数,使用 TABLESAMPLE 抽取指定的 行数/比例/大小,举例:[code lang="sql"]CREA

w397090770   3年前 (2017-02-10) 1265℃ 0评论0喜欢