欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

最新发布 第96页

过往记忆专注于大数据技术构架及应用,微信公众号:过往记忆大数据

电子书

Hadoop: The Definitive Guide, 4th Edition[pdf]

Hadoop: The Definitive Guide, 4th Edition[pdf]
Hadoop权威指南英文版第四版,它的内容组织得当,思路清晰,紧密结合实际。但是要把它翻译成中文介绍给中国的读者,并非易事。它不单单要求译者能够熟练地掌握英文,还要求他们对书中的技术性内容有深入、准确的了解和掌握。从这两点来审视,本书的译者团队完全足以胜任。作为大学老师,他们不仅在大数据领域从事一线

w397090770   9年前 (2015-08-15) 4744℃ 0评论9喜欢

电子书

Hadoop Application Architectures[PDF]

Hadoop Application Architectures[PDF]
Hadoop Application Architectures - Designing Real-World Big Data Applications由 O'Reilly 于2015年7月出版,共364页。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop目录Chapter 1 Data Modeling in HadoopChapter 2 Data MovementChapter 3 Processing Data in HadoopChapter 4 Common Hadoop Processing PatternsChapter 5 Graph Processing on HadoopChapter 6

w397090770   9年前 (2015-08-14) 7709℃ 0评论10喜欢

Flume

Hadoop等大数据学习相关电子书[共85本]

Hadoop等大数据学习相关电子书[共85本]
  下面的大数据学习电子书我会陆续上传,敬请关注。一、Hadoop1、Hadoop Application Architectures2、Hadoop: The Definitive Guide, 4th Edition3、Hadoop Security Protecting Your Big Data Platform4、Field Guide to Hadoop An Introduction to Hadoop, Its Ecosystem, and Aligned Technologies5、Hadoop Operations A Guide for Developers and Administrators6、Hadoop Backup and Recovery Solutions

w397090770   9年前 (2015-08-11) 20350℃ 2评论54喜欢

Kafka

Apache kafka入门篇:工作原理简介

Apache kafka入门篇:工作原理简介
消息队列  消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列,应用程序可独立地执行--它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。在分布式计算环境中,为了集成分布式应用,开发者需要对异构网络环

w397090770   9年前 (2015-08-11) 8071℃ 2评论17喜欢

Spark

Spark北京Meetup第九次活动-Zeppelin主题

Spark北京Meetup第九次活动-Zeppelin主题
一、活动时间  北京第九次Spark Meetup活动将于2015年08月22日进行;下午14:00-18:00。二、活动地点  北京市海淀区丹棱街5号 微软亚太研发集团总部大厦1号楼三、活动内容  1、《Keynote》 ,分享人:Sejun Ra ,CEO of NFLabs.com  2、《An introduction to Zeppelin with a demo》,分享人: Anthony Corbacho, Engineer from NFLabs and

w397090770   9年前 (2015-08-07) 2809℃ 0评论1喜欢

Hadoop

Hadoop&Spark解决二次排序问题(Hadoop篇)

Hadoop&Spark解决二次排序问题(Hadoop篇)
《Hadoop&Spark解决二次排序问题(Spark篇)》《Hadoop&Spark解决二次排序问题(Hadoop篇)》问题描述二次排序就是key之间有序,而且每个Key对应的value也是有序的;也就是对MapReduce的输出(KEY, Value(v1,v2,v3,......,vn))中的Value(v1,v2,v3,......,vn)值进行排序(升序或者降序),使得Value(s1,s2,s3,......,sn),si ∈ (v1,v2,v3,......,vn)且s1 < s2 < s3 < .....

w397090770   9年前 (2015-08-06) 11279℃ 6评论29喜欢

Spark

使用SequoiaDB Connector和Apache Spark整合

使用SequoiaDB Connector和Apache Spark整合
为什么选择Spark  SequoiaDB是NoSQL数据库,它可以将数据复制到不同的物理节点上,而且用户可以在应用程序中指定使用哪个备份块。它能够在同一个集群中使用最少的I/O或者CPU来分析或者操作一些工作。  Apache Spark和SequoiaDB的整合允许用户创建单个平台来在同一个物理集群上同时运行多种不同的workloads 。Spark-SequoiaDB Conne

w397090770   9年前 (2015-08-05) 4584℃ 0评论2喜欢

HBase

使用Spark SQL读取HBase上的数据

使用Spark SQL读取HBase上的数据
  近日,由华为团队开发的Spark-SQL-on-HBase项目通过Spark SQL/DataFrame并调用Hbase内置的访问API读取HBase上面的数据,该项目具有很好的可扩展性和可靠性。这个项目具有以下的特点:  1、基于部分评估技术,该项目具有强大的数据剪枝和智能扫描特点;  2、支持自定义过滤规则、协处理器等以便支持超低延迟的处理;  3

w397090770   9年前 (2015-07-23) 22575℃ 0评论22喜欢

Spark

Apache Spark 1.4.1正式发布(稳定版)

Apache Spark 1.4.1正式发布(稳定版)
  Apache Spark于北京时间2015年07月16日05点正式发布。Spark 1.4.1主要是维护版本,包含了大量的稳定性修复。该版本是基于branch-1.4分支。社区推荐所有1.4.0使用升级到这个稳定版本。此版本有85位开发者参与。  Spark 1.4.1包含了大量的Bug修复,这些Bug出现在Spark的DataFrame、外部数据源支持以及其他组建的一些bug修复。一些比较重要

w397090770   9年前 (2015-07-16) 4332℃ 0评论10喜欢

Spark

Apache Spark快速入门:基本概念和例子(2)

Apache Spark快速入门:基本概念和例子(2)
  《Apache Spark快速入门:基本概念和例子(1)》  《Apache Spark快速入门:基本概念和例子(2)》五、弹性分布式数据集(Resilient Distributed Dataset,RDD)  弹性分布式数据集(RDD,从Spark 1.3版本开始已被DataFrame替代)是Apache Spark的核心理念。它是由数据组成的不可变分布式集合,其主要进行两个操作:transformation和action。Tr

w397090770   9年前 (2015-07-13) 7650℃ 0评论8喜欢