欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:1035
  2. 浏览总数:13,399,776
  3. 评论:4085
  4. 分类目录:108 个
  5. 注册用户数:6826
  6. 最后更新:2019年6月19日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
Hadoop技术博文:
bigdata_ai

 分类:Kafka

Spark Streaming和Kafka整合开发指南(一)

Spark Streaming和Kafka整合开发指南(一)
  《Spark Streaming和Kafka整合开发指南(一)》  《Spark Streaming和Kafka整合开发指南(二)》  Apache Kafka是一个分布式的消息发布-订阅系统。可以说,任何实时大数据处理工具缺少与Kafka整合都是不完整的。本文将介绍如何使用Spark Streaming从Kafka中接收数据,这里将会介绍两种方法:(1)、使用Receivers和Kafka高层次的API;(2)

w397090770   4年前 (2015-04-19) 31524℃ 0评论29喜欢

Spark Streaming 1.3对Kafka整合的提升详解

Spark Streaming 1.3对Kafka整合的提升详解
  Apache Kafka近年来迅速地成为开源社区流行的流输入平台。同时我们也看到了Spark Streaming的使用趋势和它类似。因此,在Spark 1.3中,社区对Kafka和Spark Streaming的整合做了很多重要的提升。主要修改如下:  1、为Kafka新增了新的Direct API。这个API可以使得每个Kafka记录仅且被处理一次(processed exactly once),即使读取过程中出现了失

w397090770   4年前 (2015-04-10) 15826℃ 0评论23喜欢

Kafka剖析:Kafka背景及架构介绍

Kafka剖析:Kafka背景及架构介绍
《Kafka剖析:Kafka背景及架构介绍》《Kafka设计解析:Kafka High Availability(上)》《Kafka设计解析:Kafka High Availability (下)》《Kafka设计解析:Replication工具》《Kafka设计解析:Kafka Consumer解析》  Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源

w397090770   4年前 (2015-04-08) 6707℃ 2评论15喜欢

用Spark往Kafka里面写对象设计与实现

用Spark往Kafka里面写对象设计与实现
  Spark和Kafka都是比较常用的两个大数据框架,Spark里面提供了对Kafka读写的支持。默认情况下我们Kafka只能写Byte数组到Topic里面,如果我们想往Topic里面读写String类型的消息,可以分别使用Kafka里面内置的StringEncoder编码类和StringDecoder解码类。那如果我们想往Kafka里面写对象怎么办?  别担心,Kafka中的kafka.serializer里面有Decoder和En

w397090770   4年前 (2015-03-26) 19941℃ 11评论15喜欢

雅虎开源的Kafka集群管理器(Kafka Manager)

雅虎开源的Kafka集群管理器(Kafka Manager)
《Apache Kafka监控之Kafka Web Console》《Apache Kafka监控之KafkaOffsetMonitor》《雅虎开源的Kafka集群管理器(Kafka Manager)》Kafka在雅虎内部被很多团队使用,媒体团队用它做实时分析流水线,可以处理高达20Gbps(压缩数据)的峰值带宽。为了简化开发者和服务工程师维护Kafka集群的工作,构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka M

w397090770   4年前 (2015-02-04) 20968℃ 0评论14喜欢

Apache Kafka监控之Kafka Web Console

Apache Kafka监控之Kafka Web Console
《Apache Kafka监控之Kafka Web Console》《Apache Kafka监控之KafkaOffsetMonitor》《雅虎开源的Kafka集群管理器(Kafka Manager)》昨天在《Apache Kafka监控之KafkaOffsetMonitor》介绍了KafkaOffsetMonitor的编译以及配置等内容,今天继续来介绍Kafka的第二种监控系统Kafka Web Console。他也是一款开源的系统,源码的地址在https://github.com/claudemamo/kafka-web-console中

w397090770   5年前 (2014-08-08) 40792℃ 3评论12喜欢

Apache Kafka监控之KafkaOffsetMonitor

Apache Kafka监控之KafkaOffsetMonitor
《Apache Kafka监控之Kafka Web Console》《Apache Kafka监控之KafkaOffsetMonitor》《雅虎开源的Kafka集群管理器(Kafka Manager)》当你将Kafka集群部署之后,你可能需要知道当前消息队列的增长以及消费情况,这时候你就得需要监控它。今天我这里推荐两款 Kafka 开源的监控系统:KafkaOffsetMonitor 和 Kafka Web Console。KafkaOffsetMonitor是用来实时监控K

w397090770   5年前 (2014-08-07) 38772℃ 1评论18喜欢

Kafka分布式集群部署手册(二)

Kafka分布式集群部署手册(二)
  在本博客的《Apache Kafka-0.8.1.1源码编译》文章中简单地谈到如何用gradlew或sbt编译Kafka 0.8.1.1的代码。今天主要来谈谈如何部署一个分布式集群。以下本文所有的内容都是基于Kafka 0.8.1.1(Kafka 0.7.x的操作命令和本文略有不同,请注意!)在介绍Kafka分布式部署之前,先来了解一下Kafka的基本概念。  (1)Kafka维护按类区分的消息

w397090770   5年前 (2014-06-25) 8308℃ 0评论5喜欢

Kafka分布式集群部署手册(一)

Kafka分布式集群部署手册(一)
  在本博客的《Apache Kafka-0.8.1.1源码编译》文章中简单地谈到如何用gradlew或sbt编译Kafka 0.8.1.1的代码。今天主要来谈谈如何部署一个分布式集群。以下本文所有的内容都是基于Kafka 0.8.1.1(Kafka 0.7.x的操作命令和本文略有不同,请注意!)在介绍Kafka分布式部署之前,先来了解一下Kafka的基本概念。  (1)Kafka维护按类区分的消息

w397090770   5年前 (2014-06-23) 17395℃ 0评论19喜欢

Apache Kafka-0.8.1.1源码编译

Apache Kafka-0.8.1.1源码编译
  经过近一个月时间,终于差不多将之前在Flume 0.9.4上面编写的source、sink等插件迁移到Flume-ng 1.5.0,包括了将Flume 0.9.4上面的TailSource、TailDirSource等插件的迁移(当然,我们加入了许多新的功能,比如故障恢复、日志的断点续传、按块发送日志以及每个一定的时间轮询发送日志而不是等一个日志发送完才发送另外一个日志)。现在

w397090770   5年前 (2014-06-18) 16373℃ 13评论15喜欢