欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:1050
  2. 浏览总数:13,996,270
  3. 评论:4145
  4. 分类目录:111 个
  5. 注册用户数:7002
  6. 最后更新:2019年8月23日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
开发爱好者社区:
bigdata_ai
  • Apache Spark 社区期待的 Delta Lake 开源了
  • Apache Hive 联邦查询(Query Federation)
  • Apache Spark 3.0 将内置支持 GPU 调度
  • HBase Rowkey 设计指南
  • HBase 工程中 protobuf 版本冲突解决
  • Flink Forward 201809PPT资料下载
  • Spark Summit North America 201806 全部PPT下载[共147个]
  • Apache Spark 统一内存管理模型详解
  • Apache Pulsar:雅虎开发的企业级发布订阅消息系统
  • 图解Apache Kafka消息偏移量的演变(0.7.x~0.10.x)
  • Kafka创建Topic时如何将分区放置到不同的Broker中
  • Apache Zeppelin使用入门指南:编程
  • Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现
  • 使用jvisualvm监控Spark作业
  • Spark作业代码(源码)IDE远程调试
Apache Spark 社区期待的 Delta Lake 开源了Apache Hive 联邦查询(Query Federation)Apache Spark 3.0 将内置支持 GPU 调度HBase Rowkey 设计指南HBase 工程中 protobuf 版本冲突解决Flink Forward 201809PPT资料下载Spark Summit North America 201806 全部PPT下载[共147个]Apache Spark 统一内存管理模型详解Apache Pulsar:雅虎开发的企业级发布订阅消息系统图解Apache Kafka消息偏移量的演变(0.7.x~0.10.x)Kafka创建Topic时如何将分区放置到不同的Broker中Apache Zeppelin使用入门指南:编程Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现使用jvisualvm监控Spark作业Spark作业代码(源码)IDE远程调试
Delta Lake

深入理解 Apache Spark Delta Lake 的事务日志

深入理解 Apache Spark Delta Lake 的事务日志
事务日志是理解 Delta Lake 的关键,因为它是贯穿许多最重要功能的通用模块,包括 ACID 事务、可扩展的元数据处理、时间旅行(time travel)等。本文我们将探讨事务日志(Transaction Log)是什么,它在文件级别是如何工作的,以及它如何为多个并发读取和写入问题提供优雅的解决方案。事务日志(Transaction Log)是什么Delta Lake 事务日

w397090770   3天前 71℃ 0评论1喜欢

MongoDB

MongoDB 4.2 发布,支持分布式事务

MongoDB 4.2 发布,支持分布式事务
MongoDB 4.2 稳定版于近日正式发布了,此版本带来了许多最大的特性,比如分布式事务(Distributed Transactions)、客户端字段级别加密(Client-Side Field-Level Encryption)、按需物化视图(On-Demand Materialized Views)以及通配符索引(Wildcard Indexes)。下面我们来简单介绍一下各个新特性。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关

w397090770   1周前 (08-18) 117℃ 0评论1喜欢

Flink

五年总结:过往记忆大数据公众号原创精选

五年总结:过往记忆大数据公众号原创精选
今年是我创建这个微信公众号的第五年,五年来,收获了6.8万粉丝。这个数字,在自媒体圈子,属于十八线小规模的那种,但是在纯技术圈,还是不错的成绩,我很欣慰。我花在这个号上面的时间挺多的。我平时下班比较晚,一般下班到家了,老婆带着孩子已经安睡了,我便轻手轻脚的拿出电脑,带上耳机,开始我一天的知识盘

w397090770   2周前 (08-13) 607℃ 0评论4喜欢

Scala

Apache Spark DataSource V2 介绍及入门编程指南(下)

Apache Spark DataSource V2 介绍及入门编程指南(下)
我们在 Apache Spark DataSource V2 介绍及入门编程指南(上) 文章中介绍了 Apache Spark DataSource V1 的不足,所以才有了 Data Source API V2 的诞生。Data Source API V2为了解决 Data Source V1 的一些问题,从 Apache Spark 2.3.0 版本开始,社区引入了 Data Source API V2,在保留原有的功能之外,还解决了 Data Source API V1 存在的一些问题,比如不再依赖上层 API

w397090770   2周前 (08-13) 142℃ 0评论2喜欢

Spark

Apache Spark DataSource V2 介绍及入门编程指南(上)

Apache Spark DataSource V2 介绍及入门编程指南(上)
Data Source API 定义如何从存储系统进行读写的相关 API 接口,比如 Hadoop 的 InputFormat/OutputFormat,Hive 的 Serde 等。这些 API 非常适合用户在 Spark 中使用 RDD 编程的时候使用。使用这些 API 进行编程虽然能够解决我们的问题,但是对用户来说使用成本还是挺高的,而且 Spark 也不能对其进行优化。为了解决这些问题,Spark 1.3 版本开始引入了 D

w397090770   2周前 (08-13) 263℃ 0评论0喜欢

Hadoop

重磅 | HPE 宣布收购 MapR!

重磅 | HPE 宣布收购 MapR!
美国当地时间2019年8月5日,惠普企业(Hewlett Packard Enterprises,纽约证券交易所股票代码:HPE)宣布收购 MapR Technologies Inc. 的业务资产!如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop此交易包括 MapR 的技术,知识产权以及人工智能和机器学习(AI/ML)和分析数据管理领域的专业知识。MapR 是

w397090770   2周前 (08-12) 120℃ 0评论0喜欢

Hadoop

Apache Hadoop 的 HDFS federation 前世今生(下)

Apache Hadoop 的 HDFS federation 前世今生(下)
在 《Apache Hadoop 的 HDFS federation 前世今生(上)》 已经介绍了 Hadoop 2.9.0 版本之前 HDFS federation 存在的问题,那么为了解决这个问题,社区采取了什么措施呢?HDFS Router-based FederationViewFs 方案虽然可以很好的解决文件命名空间问题,但是它的实现有以下几个问题:ViewFS 是基于客户端实现的,需要用户在客户端进行相关的配置,那

w397090770   1个月前 (07-26) 277℃ 0评论1喜欢

Hadoop

Apache Hadoop 的 HDFS Federation 前世今生(上)

Apache Hadoop 的 HDFS Federation 前世今生(上)
背景熟悉大数据的人应该都知道,HDFS 是一个分布式文件系统,它是基于谷歌的 GFS 思路实现的开源系统,它的设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的 HDFS 架构中有2个 NameNode 和多个 DataNode 的,如下:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop从

w397090770   1个月前 (07-25) 381℃ 0评论0喜欢

Spark

深入理解 Spark SQL 的 Catalyst 优化器

深入理解 Spark SQL 的 Catalyst 优化器
Spark SQL 是 Spark 最新且技术最复杂的组件之一。它同时支持 SQL 查询和新的 DataFrame API。Spark SQL 的核心是 Catalyst 优化器,它以一种全新的方式利用高级语言的特性(例如:Scala 的模式匹配和 Quasiquotes ①)构建一个可扩展的查询优化器。最近我们在 SIGMOD 2015 发表了一篇论文(合作者:Davies Liu,Joseph K. Bradley,Xiangrui Meng,Tomer Kaftan

w397090770   1个月前 (07-21) 676℃ 0评论4喜欢

Kubernetes

YuniKorn: Cloudera 开源的可适配 YARN & K8s 的新一代资源调度器

YuniKorn: Cloudera 开源的可适配 YARN & K8s 的新一代资源调度器
2019 年 7 月 17 日,Cloudera 官方博客发文开源了一个内部研发使用很久的大数据存储和通用计算平台交叉的新项目 YuniKorn。Yunikorn 是一个新的独立通用资源调度程序,负责为大数据工作负载分配/管理资源,包括批处理作业和长时间运行的服务。介绍YuniKorn 是一种轻量级的通用资源调度程序,适用于容器编排系统(container orchestrator s

w397090770   1个月前 (07-17) 1065℃ 0评论0喜欢