欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

有关【Hadoop】的内容

送书活动

日志采集的挑战,留言免费获取《大数据之路:阿里巴巴大数据实践》

日志采集的挑战,留言免费获取《大数据之路:阿里巴巴大数据实践》
本文节选自《大数据之路:阿里巴巴大数据实践》,关注 iteblog_hadoop 公众号并在这篇文章里面文末评论区留言(认真写评论,增加上榜的机会)。留言点赞数排名前5名的粉丝,各免费赠送一本《大数据之路:阿里巴巴大数据实践》,活动截止至08月11日18:00。这篇文章评论区留......

w397090770   8年前 (2017-08-03) 1713℃ 0评论11喜欢

Kafka

Kafka原理与技术

Kafka原理与技术
Kafka的基本介绍Kafka最初由Linkedin公司开发,是一个分布式、分区、多副本、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常用于web/nginx日志、访问日志,消息服务等等场景。Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场......

w397090770   8年前 (2017-08-03) 5451℃ 0评论14喜欢

Scala

play-json处理空值的几种方法

play-json处理空值的几种方法
假设我们有个需求,需要解析文件里面的Json数据,我们的Json数据如下:{"website": "www.iteblog.com", "email": "hadoop@iteblog.com"}我们使用play-json来解析,首先我们引入相关依赖:<dependency> <gro......

w397090770   8年前 (2017-08-02) 2994℃ 0评论16喜欢

Flink

Flink监控指标名特殊字符解决

Flink监控指标名特殊字符解决
和其他大数据系统类似,Flink 内置也提供 metric system 供我们监控 Flink 程序的运行情况,包括了JobManager、TaskManager、Job、Task以及Operator等组件的运行情况,大大方便我们调试监控我们的程序。系统提供的一些监控指标名字有下面几个:metrics.scope.jm默认值:......

w397090770   8年前 (2017-08-01) 3228℃ 0评论6喜欢

Kafka

Kafka客户端是如何找到 leader 分区的

Kafka客户端是如何找到 leader 分区的
在正常情况下,Kafka中的每个Topic都会有很多个分区,每个分区又会存在多个副本。在这些副本中,存在一个leader分区,而剩下的分区叫做 follower,所有对分区的读写操作都是对leader分区进行的。所以当我们向Kafka写消息或者从Kafka读取消息的时候,必须先找到对应分区的Lea......

w397090770   8年前 (2017-07-28) 2090℃ 0评论6喜欢

Kafka

Java API方式调用Kafka各种协议

Java API方式调用Kafka各种协议
众所周知,Kafka自己实现了一套二进制协议(binary protocol)用于各种功能的实现,比如发送消息,获取消息,提交位移以及创建topic等。具体协议规范参见:Kafka协议 这套协议的具体使用流程为:客户端创建对应协议的请求客户端发送请求给对应的brokerbroker处理请求,并......

w397090770   8年前 (2017-07-27) 431℃ 0评论0喜欢

Spark

[电子书]Learning Apache Spark 2 PDF下载

[电子书]Learning Apache Spark 2 PDF下载
本书于2017-03由Packt Publishing出版,作者Muhammad Asif Abbasi,全书356页。通过本书你将学到以下知识:Get an overview of big data analytics and its importance for organizations and data professionalsDelve into Spark to see how it is different from exis......

zz~~   8年前 (2017-07-26) 14791℃ 0评论29喜欢

Kafka

Kafka分区分配策略(Partition Assignment Strategy)

Kafka分区分配策略(Partition Assignment Strategy)
问题用过 Kafka 的同学应该都知道,每个 Topic 一般会有很多个 partitions。为了使得我们能够及时消费消息,我们也可能会启动多个 Consumer 去消费,而每个 Consumer 又会启动一个或多个streams去分别消费 Topic 对应分区中的数据。我们又知道,Kafka 存在 Consumer Group ......

w397090770   8年前 (2017-07-22) 17971℃ 3评论27喜欢

Kafka

使用idea阅读Kafka源码

使用idea阅读Kafka源码
本文涉及到的环境:操作系统:Windows 7Idea 版本:IntelliJ IDEA 2016.3.4 Build #IU-163.12024.16, built on January 31, 2017Kafka 版本:Kafka 0.8.2.0Gradle 版本:gradle-4.0.1JDK 版本:jdk1.7.0Scala 版本:2.10.4首先到http://archive.apache.org/dist/ka......

w397090770   8年前 (2017-07-21) 6232℃ 0评论16喜欢