欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:1080
  2. 浏览总数:14,764,571
  3. 评论:4201
  4. 分类目录:115 个
  5. 注册用户数:7089
  6. 最后更新:2019年12月15日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
开发爱好者社区:
bigdata_ai

w397090770的文章

Kafka

32 道常见的 Kafka 面试题你都会吗?附答案

32 道常见的 Kafka 面试题你都会吗?附答案
最近很多粉丝后台留言问了一些大数据的面试题,其中包括了大量的 Kafka、Spark等相关的问题,所以我特意抽出一些时间整理了一些场景的大数据相关面试题,本文是 Kafka 面试相关问题,其他系列面试题后面会陆续整理,欢迎关注过往记忆大数据公众号。当然,由于个人知识面的限制,还有很多面试题相关的东西本文没有收集整理

  3个月前 (09-14) 2878℃ 3评论13喜欢

Delta Lake

Apache Spark Delta Lake 写数据使用及实现原理代码解析

Apache Spark Delta Lake 写数据使用及实现原理代码解析
Delta Lake 写数据是其最基本的功能,而且其使用和现有的 Spark 写 Parquet 文件基本一致,在介绍 Delta Lake 实现原理之前先来看看如何使用它,具体使用如下:[code lang="scala"]df.write.format("delta").save("/data/iteblog/delta/test/")//数据按照 dt 分区df.write.format("delta").partitionBy("dt").save("/data/iteblog/delta/test/"

  3个月前 (09-10) 878℃ 0评论2喜欢

Delta Lake

这可能是学习 Spark Delta Lake 最全的资料

这可能是学习 Spark Delta Lake 最全的资料
Delta Lake 是一个存储层,为 Apache Spark 和大数据 workloads 提供 ACID 事务能力,其通过写和快照隔离之间的乐观并发控制(optimistic concurrency control),在写入数据期间提供一致性的读取,从而为构建在 HDFS 和云存储上的数据湖(data lakes)带来可靠性。Delta Lake 还提供内置数据版本控制,以便轻松回滚。为了更好的学习 Delta Lake ,本文

  3个月前 (09-09) 1304℃ 0评论3喜欢

Cassandra

使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎

使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎
Apache Kafka 是一个可扩展,高性能,低延迟的平台,允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。Spark Streaming 是 Apache Spark 的一部分,是一个可扩展、高吞吐、容错的实时流处理引擎。虽然是使用 Scala 开发的,但是支持 Java API。Apache Cassandra 是分布式的 NoSQL 数据库。在这篇文章中,我们将

  3个月前 (09-08) 1840℃ 0评论5喜欢

Cassandra

印度版的“大众点评”如何将 Food Feed 业务从 Redis 迁移到 Cassandra

印度版的“大众点评”如何将 Food Feed 业务从 Redis 迁移到 Cassandra
Zomato 是一家食品订购、外卖及餐馆发现平台,被称为印度版的“大众点评”。目前,该公司的业务覆盖全球24个国家(主要是印度,东南亚和中东市场)。本文将介绍该公司的 Food Feed 业务是如何从 Redis 迁移到 Cassandra 的。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公众号:iteblog_hadoopFood Feed 是 Zomato 社交场景

  3个月前 (09-08) 591℃ 0评论2喜欢

Cassandra

Cassandra nodetool常用命令介绍

Cassandra nodetool常用命令介绍
简介nodetool是cassandra自带的外围工具,通过JMX可以动态修改当前进程内存数据,注意cassandra是无主对等架构,默认的命令是操作本机当前进程,例如repair,如果需要做全集群修复,需要在每台机器上执行对应的nodetool命令。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公众号:iteblog_hadoop执行nodetool help命令可

  3个月前 (09-08) 594℃ 0评论2喜欢

Cassandra

重磅:阿里云全球首发云 Cassandra 服务!

重磅:阿里云全球首发云 Cassandra 服务!
引言:十年沉淀、全球宽表排名第一、阿里云首发云Cassandra服务ApsaraDB for Cassandra是基于开源Apache Cassandra,融合阿里云数据库DBaaS能力的分布式NoSQL数据库。Cassandra已有10年+的沉淀,基于Amazon DynamoDB的分布式设计和 Google Bigtable 的数据模型。具备诸多优异特性:采用分布式架构、无中心、支持多活、弹性可扩展、高可用、容错、一

  3个月前 (09-05) 1372℃ 0评论4喜欢

Delta Lake

Apache Spark Delta Lake 事务日志实现源码分析

Apache Spark Delta Lake 事务日志实现源码分析
我们已经在 这篇文章详细介绍了 Apache Spark Delta Lake 的事务日志是什么、主要用途以及如何工作的。那篇文章已经可以很好地给大家介绍 Delta Lake 的内部工作原理,原子性保证,本文为了学习的目的,带领大家从源码级别来看看 Delta Lake 事务日志的实现。在看本文时,强烈建议先看一下《深入理解 Apache Spark Delta Lake 的事务日志》文

  3个月前 (09-02) 615℃ 0评论3喜欢

Delta Lake

深入理解 Apache Spark Delta Lake 的事务日志

深入理解 Apache Spark Delta Lake 的事务日志
事务日志是理解 Delta Lake 的关键,因为它是贯穿许多最重要功能的通用模块,包括 ACID 事务、可扩展的元数据处理、时间旅行(time travel)等。本文我们将探讨事务日志(Transaction Log)是什么,它在文件级别是如何工作的,以及它如何为多个并发读取和写入问题提供优雅的解决方案。事务日志(Transaction Log)是什么Delta Lake 事务日

  4个月前 (08-22) 726℃ 0评论4喜欢

MongoDB

MongoDB 4.2 发布,支持分布式事务

MongoDB 4.2 发布,支持分布式事务
MongoDB 4.2 稳定版于近日正式发布了,此版本带来了许多最大的特性,比如分布式事务(Distributed Transactions)、客户端字段级别加密(Client-Side Field-Level Encryption)、按需物化视图(On-Demand Materialized Views)以及通配符索引(Wildcard Indexes)。下面我们来简单介绍一下各个新特性。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关

  4个月前 (08-18) 685℃ 0评论3喜欢