欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:1095
  2. 浏览总数:14,981,324
  3. 评论:4203
  4. 分类目录:122 个
  5. 注册用户数:7098
  6. 最后更新:2020年1月15日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
开发爱好者社区:
bigdata_ai
  • Apache Spark Delta Lake 事务日志实现源码分析
  • Spark+AI Summit 2019 PPT 下载[共124个]
  • Apache Spark 社区期待的 Delta Lake 开源了
  • Uber 向 Apache 软件基金会提交开源大数据存储库 Hudi
  • Apache Hive 联邦查询(Query Federation)
  • Apache Spark 3.0 将内置支持 GPU 调度
  • HBase Rowkey 设计指南
  • HBase 工程中 protobuf 版本冲突解决
  • Flink Forward 201809PPT资料下载
  • Spark Summit North America 201806 全部PPT下载[共147个]
  • Apache Spark 统一内存管理模型详解
  • Apache Pulsar:雅虎开发的企业级发布订阅消息系统
  • 图解Apache Kafka消息偏移量的演变(0.7.x~0.10.x)
  • Kafka创建Topic时如何将分区放置到不同的Broker中
  • Apache Zeppelin使用入门指南:编程
Apache Spark Delta Lake 事务日志实现源码分析Spark+AI Summit 2019 PPT 下载[共124个]Apache Spark 社区期待的 Delta Lake 开源了Uber 向 Apache 软件基金会提交开源大数据存储库 HudiApache Hive 联邦查询(Query Federation)Apache Spark 3.0 将内置支持 GPU 调度HBase Rowkey 设计指南HBase 工程中 protobuf 版本冲突解决Flink Forward 201809PPT资料下载Spark Summit North America 201806 全部PPT下载[共147个]Apache Spark 统一内存管理模型详解Apache Pulsar:雅虎开发的企业级发布订阅消息系统图解Apache Kafka消息偏移量的演变(0.7.x~0.10.x)Kafka创建Topic时如何将分区放置到不同的Broker中Apache Zeppelin使用入门指南:编程
Docker

一文了解什么是 Docker

一文了解什么是 Docker
2010年,几个大胡子年轻人在旧金山成立了一家名为 dotCloud 的 PaaS 平台的公司。dotCloud 主要是基于 PaaS 平台为开发者或开发商提供技术服务。PaaS 的全称是 Platform as a Service,也就是平台即服务。dotCloud 把需要花费大量时间的手工工作和重复劳动抽象成组件和服务,并放到了云端,另外,它还提供了各种监控、告警和控制功能,方便开

w397090770   1周前 (01-15) 100℃ 0评论0喜欢

Hadoop

字节跳动 EB 级 HDFS 实践

字节跳动 EB 级 HDFS 实践
HDFS 简介因为 HDFS 这样一个系统已经存在了非常长的时间,应用的场景已经非常成熟了,所以这部分我们会比较简单地介绍。HDFS 全名 Hadoop Distributed File System,是业界使用最广泛的开源分布式文件系统。原理和架构与 Google 的 GFS 基本一致。它的特点主要有以下几项:和本地文件系统一样的目录树视图Append Only 的写入(不支持

w397090770   2周前 (01-10) 294℃ 0评论2喜欢

Spark

Apache Spark 将支持 Stage 级别的资源控制和调度

Apache Spark 将支持 Stage 级别的资源控制和调度
背景熟悉 Spark 的同学都知道,Spark 作业启动的时候我们需要指定 Exectuor 的个数以及内存、CPU 等信息。但是在 Spark 作业运行的时候,里面可能包含很多个 Stages,这些不同的 Stage 需要的资源可能不一样,由于目前 Spark 的设计,我们无法对每个 Stage 进行细粒度的资源设置。而且即使是一个资深的工程师也很难准确的预估一个比较

w397090770   2周前 (01-10) 205℃ 0评论0喜欢

其他

欢迎加入阿里云 Dala Lake Analytics 团队

欢迎加入阿里云 Dala Lake Analytics 团队
如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop回望过去10年,数据技术发展迅速,数据也在呈现爆炸式的增长,这也伴随着如下两个现象。一、数据更加分散:企业的数据是散落在不同的数据存储之中,如对象存储OSS,OLTP的MySQL,NoSQL的Mongo及HBase,以及数据仓库ADB之中,甚至是以服务的形式

w397090770   2周前 (01-07) 328℃ 0评论2喜欢

Hadoop

Hadoop 2.7 不停服升级到 3.2 在滴滴的实践

Hadoop 2.7 不停服升级到 3.2 在滴滴的实践
为什么要升级在2017年底, Hadoop3.0 发布了,到目前为止, Hadoop 发布的最新版本为3.2.1。在 Hadoop3 中有很多有用的新特性出现,如支持 ErasureCoding、多 NameNode、Standby NameNode read、DataNode Disk Balance、HDFS RBF 等等。除此之外,还有很多性能优化以及 BUG 修复。其中最吸引我们的就是 ErasureCoding 特性,数据可靠性保持不变的情况下可以降

w397090770   3周前 (01-05) 344℃ 0评论2喜欢

Spark

Apache Spark SQL 在有赞大数据的实践

Apache Spark SQL 在有赞大数据的实践
一、前言在 2019 年 1 月份的时候,我们发表过一篇博客 从 Hive 迁移到 Spark SQL 在有赞的实践,里面讲述我们在 Spark 里所做的一些优化和任务迁移相关的内容。本文会接着上次的话题继续讲一下我们之后在 SparkSQL 上所做的一些改进,以及如何做到 SparkSQL 占比提升到 91% 以上,最后也分享一些在 Spark 踩过的坑和经验希望能帮助到大家

w397090770   3周前 (01-05) 272℃ 0评论2喜欢

ElasticSearch

基于 MySQL Binlog 的 ElasticSearch 数据同步实践

基于 MySQL Binlog 的 ElasticSearch 数据同步实践
背景随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。现有方法及问题对于数据同步,我们目前

w397090770   3周前 (01-04) 241℃ 0评论2喜欢

大数据

过往记忆大数据,2019年原创精选69篇

过往记忆大数据,2019年原创精选69篇
这是一份迟来的年终报告,本来昨天就要发出来的,实在是没忙开,今天我就把它当作新年礼物送给各位看官,以下文章都是我结合日常工作、学习,每当“夜深人静"的时候写出来的一些小总结,希望能给大家一些技术上的帮助。关注我的朋友都知道,我在今年八月份发了一篇文章,里面整理了我五年来写在这个公众号上面的原

w397090770   3周前 (01-04) 190℃ 0评论0喜欢

Airflow

盘点2019年晋升为Apache TLP的大数据相关项目

盘点2019年晋升为Apache TLP的大数据相关项目
本博客盘点了过去两年晋升为 Apache TLP(Apache Top-Level Project) 的大数据相关项目,具体参见《盘点2017年晋升为Apache TLP的大数据相关项目》、《盘点2018年晋升为Apache TLP的大数据相关项目》,继承这个惯例,本文将给大家盘点2019年晋升为 Apache TLP 的大数据相关项目,由于今年晋升成 TLP 的大数据项目很少,只有三个,而且其中两个好

w397090770   3周前 (12-30) 343℃ 0评论4喜欢

Kafka

Apache Kafka 2.4 正式发布,重要功能详细介绍

Apache Kafka 2.4 正式发布,重要功能详细介绍
2019年12月18日 Apache Kafka 2.4 正式发布了,这个版本有很多新功能,本文将介绍这个版本比较重要的功能,完整的更新可以参见 release notes如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoopKafka broker, producer, 以及 consumer 新功能KIP-392: 允许消费者从最近的副本获取数据在 Kafka 2.4 版本之前,消费者

w397090770   4周前 (12-25) 413℃ 0评论2喜欢