欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:988
  2. 浏览总数:12,219,179
  3. 评论:3982
  4. 分类目录:106 个
  5. 注册用户数:6259
  6. 最后更新:2019年1月14日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
大数据猿:
bigdata_ai

 分类:Kafka

Hadoop等大数据学习相关电子书[共85本]

Hadoop等大数据学习相关电子书[共85本]
  下面的大数据学习电子书我会陆续上传,敬请关注。一、Hadoop1、Hadoop Application Architectures2、Hadoop: The Definitive Guide, 4th Edition3、Hadoop Security Protecting Your Big Data Platform4、Field Guide to Hadoop An Introduction to Hadoop, Its Ecosystem, and Aligned Technologies5、Hadoop Operations A Guide for Developers and Administrators6、Hadoop Backup and Recovery Solutions

w397090770   3年前 (2015-08-11) 18418℃ 2评论51喜欢

Apache kafka入门篇:工作原理简介

Apache kafka入门篇:工作原理简介
消息队列  消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列,应用程序可独立地执行--它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。在分布式计算环境中,为了集成分布式应用,开发者需要对异构网络环

w397090770   3年前 (2015-08-11) 7192℃ 2评论17喜欢

Kafka设计解析:Replication工具

Kafka设计解析:Replication工具
  《Kafka剖析:Kafka背景及架构介绍》  《Kafka设计解析:Kafka High Availability(上)》  《Kafka设计解析:Kafka High Availability (下)》  《Kafka设计解析:Replication工具》  《Kafka设计解析:Kafka Consumer解析》Topic Tool  $KAFKA_HOME/bin/kafka-topics.sh,该工具可用于创建、删除、修改、查看某个Topic,也可用于列出所

w397090770   4年前 (2015-06-05) 11181℃ 4评论6喜欢

Kafka设计解析:Kafka High Availability (下)

Kafka设计解析:Kafka High Availability (下)
  《Kafka剖析:Kafka背景及架构介绍》  《Kafka设计解析:Kafka High Availability(上)》  《Kafka设计解析:Kafka High Availability (下)》  《Kafka设计解析:Replication工具》  《Kafka设计解析:Kafka Consumer解析》  本文在上篇文章(《Kafka设计解析:Kafka High Availability(上)》)基础上,更加深入讲解了Kafka的HA机制

w397090770   4年前 (2015-06-04) 4013℃ 0评论6喜欢

Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现

Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现
  Apache Spark 1.3.0引入了Direct API,利用Kafka的低层次API从Kafka集群中读取数据,并且在Spark Streaming系统里面维护偏移量相关的信息,并且通过这种方式去实现零数据丢失(zero data loss)相比使用基于Receiver的方法要高效。但是因为是Spark Streaming系统自己维护Kafka的读偏移量,而Spark Streaming系统并没有将这个消费的偏移量发送到Zookeeper中,

w397090770   4年前 (2015-06-02) 23019℃ 36评论21喜欢

Kafka+Spark Streaming+Redis实时系统实践

Kafka+Spark Streaming+Redis实时系统实践
  基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时

w397090770   4年前 (2015-05-30) 32140℃ 2评论66喜欢

Kafka设计解析:Kafka High Availability

Kafka设计解析:Kafka High Availability
  《Kafka剖析:Kafka背景及架构介绍》  《Kafka设计解析:Kafka High Availability(上)》  《Kafka设计解析:Kafka High Availability (下)》  《Kafka设计解析:Replication工具》  《Kafka设计解析:Kafka Consumer解析》  Kafka在0.8以前的版本中,并不提供High Availablity机制,一旦一个或多个Broker宕机,则宕机期间其上所有Part

w397090770   4年前 (2015-05-19) 4797℃ 0评论3喜欢

Spark Streaming和Kafka整合开发指南(二)

Spark Streaming和Kafka整合开发指南(二)
  《Spark Streaming和Kafka整合开发指南(一)》  《Spark Streaming和Kafka整合开发指南(二)》  在本博客的《Spark Streaming和Kafka整合开发指南(一)》文章中介绍了如何使用基于Receiver的方法使用Spark Streaming从Kafka中接收数据。本文将介绍如何使用Spark 1.3.0引入的Direct API从Kafka中读数据。  和基于Receiver接收数据不一样,这种方式

w397090770   4年前 (2015-04-21) 25724℃ 0评论25喜欢

Spark Streaming和Kafka整合开发指南(一)

Spark Streaming和Kafka整合开发指南(一)
  《Spark Streaming和Kafka整合开发指南(一)》  《Spark Streaming和Kafka整合开发指南(二)》  Apache Kafka是一个分布式的消息发布-订阅系统。可以说,任何实时大数据处理工具缺少与Kafka整合都是不完整的。本文将介绍如何使用Spark Streaming从Kafka中接收数据,这里将会介绍两种方法:(1)、使用Receivers和Kafka高层次的API;(2)

w397090770   4年前 (2015-04-19) 30704℃ 0评论29喜欢

Spark Streaming 1.3对Kafka整合的提升详解

Spark Streaming 1.3对Kafka整合的提升详解
  Apache Kafka近年来迅速地成为开源社区流行的流输入平台。同时我们也看到了Spark Streaming的使用趋势和它类似。因此,在Spark 1.3中,社区对Kafka和Spark Streaming的整合做了很多重要的提升。主要修改如下:  1、为Kafka新增了新的Direct API。这个API可以使得每个Kafka记录仅且被处理一次(processed exactly once),即使读取过程中出现了失

w397090770   4年前 (2015-04-10) 15636℃ 0评论23喜欢