2020年03月的内容

ZooKeeper: 分布式协调服务

摘要本文描述分布式应用的协调服务：ZooKeeper。ZooKeeper是关键基础设施的一部分，其目标是给客户端提供简洁高性能内核用于构建复杂协调原语。在一个多副本、中心化服务中，结合了消息群发、共享注册和分布式锁等内容。ZooKeeper提供的接口有共享注册无等待的特点，与事件驱动的分布式系统缓存失效类似，还提供了强大的协调

w397090770 5年前 (2020-03-17) 587℃ 0评论2喜欢

Kafka

本文主要讲解 Kafka 是什么、Kafka 的架构包括工作流程和存储机制，以及生产者和消费者，最终大家会掌握 Kafka 中最重要的概念，分别是 broker、producer、consumer、consumer group、topic、partition、replica、leader、follower，这是学会和理解 Kafka 的基础和必备内容。1. 定义Kafka 是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主

w397090770 5年前 (2020-03-14) 1643℃ 0评论10喜欢

Spark

Spark 3.0 终于支持 event logs 滚动了

背景相信经常使用 Spark 的同学肯定知道 Spark 支持将作业的 event log 保存到持久化设备。默认这个功能是关闭的，不过我们可以通过 spark.eventLog.enabled 参数来启用这个功能，并且通过 spark.eventLog.dir 参数来指定 event log 保存的地方，可以是本地目录或者 HDFS 上的目录，不过一般我们都会将它设置成 HDFS 上的一个目录。但是这个功能

w397090770 5年前 (2020-03-09) 2405℃ 0评论8喜欢

Java

Java 14 将于3月17日正式发布，包含大量减少代码冗余的新特性

Java 14 计划将会在今年的3月17日发布，Java 14 包含的 JEP（Java Enhancement Proposals 的缩写，Java 增强建议）比 Java 12 和 13 两个版本加起来还要多。那么，对于每天编写和维护代码的 Java 开发人员来说，哪个特性值得我们关注呢？如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop本文我将介绍以下几个重

w397090770 5年前 (2020-03-07) 945℃ 0评论2喜欢

Apache Iceberg

深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：Delta、Apache Iceberg 和 Apache Hudi。其中，由于 Apache Spark 在商业化上取得巨大成功，所以由其背后商业公司 Databricks 推出的 Delta 也显得格外亮眼。Apache Hudi 是由 Uber 的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的 fast upsert/delete 以及 compaction 等功能可以说是精准命中

w397090770 5年前 (2020-03-05) 4005℃ 0评论2喜欢

公众号转载文章

携程机票数据仓库建设之路

一、前言随着大数据技术的飞速发展，海量数据存储和计算的解决方案层出不穷，生产环境和大数据环境的交互日益密切。数据仓库作为海量数据落地和扭转的重要载体，承担着数据从生产环境到大数据环境、经由大数据环境计算处理回馈生产应用或支持决策的重要角色。数据仓库的主题覆盖度、性能、易用性、可扩展性及数

w397090770 5年前 (2020-03-01) 2024℃ 0评论7喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据