欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:1036
  2. 浏览总数:13,424,932
  3. 评论:4092
  4. 分类目录:108 个
  5. 注册用户数:6834
  6. 最后更新:2019年6月24日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
Hadoop技术博文:
bigdata_ai
  • Apache Spark 社区期待的 Delta Lake 开源了
  • Apache Hive 联邦查询(Query Federation)
  • Apache Spark 3.0 将内置支持 GPU 调度
  • HBase Rowkey 设计指南
  • HBase 工程中 protobuf 版本冲突解决
  • Flink Forward 201809PPT资料下载
  • Spark Summit North America 201806 全部PPT下载[共147个]
  • Apache Spark 统一内存管理模型详解
  • Apache Pulsar:雅虎开发的企业级发布订阅消息系统
  • 图解Apache Kafka消息偏移量的演变(0.7.x~0.10.x)
  • Kafka创建Topic时如何将分区放置到不同的Broker中
  • Apache Zeppelin使用入门指南:编程
  • Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现
  • 使用jvisualvm监控Spark作业
  • Spark作业代码(源码)IDE远程调试
Apache Spark 社区期待的 Delta Lake 开源了Apache Hive 联邦查询(Query Federation)Apache Spark 3.0 将内置支持 GPU 调度HBase Rowkey 设计指南HBase 工程中 protobuf 版本冲突解决Flink Forward 201809PPT资料下载Spark Summit North America 201806 全部PPT下载[共147个]Apache Spark 统一内存管理模型详解Apache Pulsar:雅虎开发的企业级发布订阅消息系统图解Apache Kafka消息偏移量的演变(0.7.x~0.10.x)Kafka创建Topic时如何将分区放置到不同的Broker中Apache Zeppelin使用入门指南:编程Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现使用jvisualvm监控Spark作业Spark作业代码(源码)IDE远程调试
Hadoop

Hadoop 气数已尽?

Hadoop 气数已尽?
Hadoop我先从一个悲观的观点说起:Hadoop 正在迅速失去市场,我们可以从 Google 趋势走向看出这个现象:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop下面的炒作生命周期表也上面的趋势很类似:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop看起来 Hadoo

w397090770   20小时前 107℃ 0评论3喜欢

Spark

一条 SQL 在 Apache Spark 之旅(下)

一条 SQL 在 Apache Spark 之旅(下)
终于到最后一篇了,我们在前面两篇文章中《一条 SQL 在 Apache Spark 之旅(上)》 和 《一条 SQL 在 Apache Spark 之旅(中)》 介绍了 Spark SQL 之旅的 SQL 解析、逻辑计划绑定、逻辑计划优化以及物理计划生成阶段,本文我们将继续接上文,介绍 Spark SQL 的全阶段代码生成以及最后的执行过程。全阶段代码生成阶段 - WholeStageCodegen前面

w397090770   5天前 199℃ 0评论1喜欢

Spark

一条 SQL 在 Apache Spark 之旅(中)

一条 SQL 在 Apache Spark 之旅(中)
在 《一条 SQL 在 Apache Spark 之旅(上)》 文章中我们介绍了一条 SQL 在 Apache Spark 之旅的 Parser 和 Analyzer 两个过程,本文接上文继续介绍。优化逻辑计划阶段 - Optimizer在前文的绑定逻辑计划阶段对 Unresolved LogicalPlan 进行相关 transform 操作得到了 Analyzed Logical Plan,这个 Analyzed Logical Plan 是可以直接转换成 Physical Plan 然后在 Spark 中执

w397090770   6天前 395℃ 0评论6喜欢

Spark

一条 SQL 在 Apache Spark 之旅(上)

一条 SQL 在 Apache Spark 之旅(上)
Spark SQL 是 Spark 众多组件中技术最复杂的组件之一,它同时支持 SQL 查询和 DataFrame DSL。通过引入了 SQL 的支持,大大降低了开发人员的学习和使用成本。目前,整个 SQL 、Spark ML、Spark Graph 以及 Structured Streaming 都是运行在 Catalyst Optimization & Tungsten Execution 之上的,如下图所示:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关

w397090770   2周前 (06-12) 876℃ 0评论8喜欢

Kafka

Kafka 是如何保证数据可靠性和一致性

Kafka 是如何保证数据可靠性和一致性
学过大数据的同学应该都知道 Kafka,它是分布式消息订阅系统,有非常好的横向扩展性,可实时存储海量数据,是流数据处理中间件的事实标准。本文将介绍 Kafka 是如何保证数据可靠性和一致性的。数据可靠性Kafka 作为一个商业级消息中间件,消息可靠性的重要性可想而知。本文从 Producter 往 Broker 发送消息、Topic 分区副本以及

w397090770   2周前 (06-11) 404℃ 0评论6喜欢

Hadoop

Uber 大数据平台的演进(2014~2019)

Uber 大数据平台的演进(2014~2019)
Uber 致力于在全球市场上提供更安全,更可靠的运输服务。为了实现这一目标,Uber 在很大程度上依赖于数据驱动的决策,从预测高流量事件期间骑手的需求到识别和解决我们的驾驶员-合作伙伴注册流程中的瓶颈。自2014年以来,Uber 一直致力于开发大数据解决方案,确保数据可靠性,可扩展性和易用性;现在 Uber 正专注于提高他们平

w397090770   3周前 (06-06) 494℃ 0评论1喜欢

Kafka

一文了解 Kafka 的副本复制机制

一文了解 Kafka 的副本复制机制
让分布式系统的操作变得简单,在某种程度上是一种艺术,通常这种实现都是从大量的实践中总结得到的。Apache Kafka 的受欢迎程度在很大程度上归功于其设计和操作简单性。随着社区添加更多功能,开发者们会回过头来重新思考简化复杂行为的方法。Apache Kafka 中一个更细微的功能是它的复制协议(replication protocol)。对于单个集

w397090770   4周前 (05-26) 567℃ 0评论4喜欢

Spark

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的
Airbnb 日志事件获取日志事件从客户端(例如移动应用程序和 Web 浏览器)和在线服务发出,其中包含行为或操作的关键信息。每个事件都有一个特定的信息。例如,当客人在 Airbnb.com 上搜索马里布的海滨别墅时,将生成包含位置,登记和结账日期等的搜索事件。在 Airbnb,事件记录对于我们理解客人和房东,然后为他们提供更

w397090770   1个月前 (05-19) 458℃ 0评论2喜欢

Cassandra

Apache Cassandra 在 Facebook 的应用

Apache Cassandra 在 Facebook 的应用
在 Instagram (Instagram 是 Facebook 公司旗下一款免费提供在线图片及视频分享的社交应用软件,于2010年10月发布。)上,我们拥有世界上最大的 Apache Cassandra 数据库部署。我们在 2012 年开始使用 Cassandra 取代 Redis ,在生产环境中支撑欺诈检测,Feed 和 Direct inbox 等产品。起初我们在 AWS 环境中运行了 Cassandra 集群,但是当 Instagram 架构发生

w397090770   2个月前 (05-08) 271℃ 0评论0喜欢

Cassandra

欢迎加入中国 Cassandra 技术社区

欢迎加入中国 Cassandra 技术社区
Apache Cassandra 是一个开源的、分布式、无中心、弹性可扩展、高可用、容错、一致性可调、面向行的数据库,它基于 Amazon Dynamo 的分布式设计和 Google Bigtable 的数据模型,由 Facebook 创建,在一些最流行的网站中得到应用。更多特点请参见 一篇文章了解 Apache Cassandra 是什么。由于 Cassandra 数据库的众多优点,在国内外多达 1500+ 家公

w397090770   2个月前 (05-08) 273℃ 0评论3喜欢