欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:1049
  2. 浏览总数:13,959,676
  3. 评论:4140
  4. 分类目录:110 个
  5. 注册用户数:6997
  6. 最后更新:2019年8月21日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
开发爱好者社区:
bigdata_ai

w397090770的文章

Cassandra

Apache Cassandra SSTable 存储格式详解

Apache Cassandra SSTable 存储格式详解
在 Cassandra 中,当达到一定条件触发 flush 的时候,表对应的 Memtable 中的数据会被写入到这张表对应的数据目录(通过 data_file_directories 参数配置)中,并生成一个新的 SSTable(Sorted Strings Table,这个概念是从 Google 的 BigTable 借用的)。每个 SSTable 是由一系列的不可修改的文件组成,这些文件在 Cassandra 中被称为 Component。本文是基于 Cas

  4个月前 (05-05) 506℃ 1评论3喜欢

Spark

Koalas: 让 pandas 开发者轻松过渡到 Apache Spark

Koalas: 让 pandas 开发者轻松过渡到 Apache Spark
今年的 Spark + AI Summit 2019 databricks 开源了几个重磅的项目,比如 Delta Lake,Koalas 等,Koalas 是一个新的开源项目,它增强了 PySpark 的 DataFrame API,使其与 pandas 兼容。Python 数据科学在过去几年中爆炸式增长,pandas 已成为生态系统的关键。 当数据科学家拿到一个数据集时,他们会使用 pandas 进行探索。 它是数据清洗和分析的终极工

  4个月前 (04-29) 1111℃ 0评论6喜欢

Spark

.NET for Apache Spark 预览版正式发布

.NET for Apache Spark 预览版正式发布
2019年4月25日,微软的 Rahul Potharaju、Terry Kim 以及 Tyson Condie 在 Spark + AI Summit 2019 会议上为我们带来主题为 《Introducing .NET Bindings for Apache Spark 》的分享,并宣布 .NET for Apache Spark 预览版正式发布。.NET 框架是由微软开发,一个致力于敏捷软件开发、快速应用开发、平台无关性和网络透明化的免费软件框架,用于构建许多不同类型的

  4个月前 (04-28) 2333℃ 0评论4喜欢

Cassandra

Apache Cassandra 数据存储模型

Apache Cassandra 数据存储模型
我们在《Apache Cassandra 简介》文章中介绍了 Cassandra 的数据模型类似于 Google 的 Bigtable,对应的开源实现为 Apache HBase,而且我们在 《HBase基本知识介绍及典型案例分析》 文章中简单介绍了 Apache HBase 的数据模型。按照这个思路,Apache Cassandra 的数据模型应该和 Apache HBase 的数据模型很类似,那么这两者的数据存储模型是不是一样的呢?

  4个月前 (04-28) 449℃ 0评论2喜欢

Spark

Apache Spark 社区期待的 Delta Lake 开源了

Apache Spark 社区期待的 Delta Lake 开源了
本文英文原文:Open Sourcing Delta Lake2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上,Databricks 的联合创始人及 CEO Ali Ghodsi 宣布将 Databricks Runtime 里面的 Delta Lake 基于 Apache License 2.0 协议开源。Delta Lake 是一个存储层,为 Apache Spark 和大数据 workloads 提供 ACID 事务能力,其通过写和快照隔离之间的乐观并发控制(optimistic concurrency

  4个月前 (04-25) 2843℃ 0评论9喜欢

Flink

Flink Forward 201904 PPT资料下载

Flink Forward 201904 PPT资料下载
Flink Forward 是由 Apache 官方授权,Apache Flink China社区支持,有来自阿里巴巴,Ververica(Apache Flink 商业母公司)、腾讯、Google、Airbnb以及 Uber 等公司参加的国际型会议。旨在汇集大数据领域一流人才共同探讨新一代大数据计算引擎技术。通过参会不仅可以了解到Flink社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕Flink生

  4个月前 (04-20) 1893℃ 0评论6喜欢

Cassandra

Apache Cassandra 内置及自定义数据类型

Apache Cassandra 内置及自定义数据类型
到目前为止,我们在使用 CQL 建表的时候使用到了一些数据类型,比如 text、timeuuid等。本文将介绍 Apache Cassandra 内置及自定义数据类型。和其他语言一样,CQL 也支持一系列灵活的数据类型,包括基本的数据类型,集合类型以及用户自定义数据类(User-Defined Types,UDTs)。下面将介绍 CQL 支持的数据类型。如果想及时了解Spark、Hadoop或

  4个月前 (04-15) 391℃ 0评论1喜欢

Cassandra

Apache Cassandra static column 介绍与实战

Apache Cassandra static column 介绍与实战
假设我们有这样的场景:我们想在 Cassandra 中使用一张表记录用户基本信息(比如 email、密码等)以及用户状态更新。我们知道,用户的基本信息一般很少会变动,但是状态会经常变化,如果每次状态更新都把用户基本信息都加进去,势必会让费大量的存储空间。为了解决这种问题,Cassandra 引入了 static column。同一个 partition key 中被

  4个月前 (04-12) 380℃ 0评论1喜欢

Cassandra

Apache Cassandra Composite Key\Partition key\Clustering key 介绍

Apache Cassandra Composite Key\Partition key\Clustering key 介绍
在前面的文章《Apache Cassandra 快速入门指南(Quick Start)》 我们简单介绍了 Cassandra 的一些基本知识。在那篇文章里面我们使用了下面语句创建了一张名为 iteblog_user 的表:[code lang="sql"]cqlsh> use iteblog_keyspace;cqlsh:iteblog_keyspace> CREATE TABLE iteblog_user (first_name text , last_name text, PRIMARY KEY (first_name)) ;[/code]建表语句里面有个 PRIMARY KE

  4个月前 (04-09) 298℃ 2评论0喜欢

Cassandra

Apache Cassandra 快速入门指南(Quick Start)

Apache Cassandra 快速入门指南(Quick Start)
我们在这篇文章简单介绍了 Apache Cassandra 是什么,以及有什么值得关注的特性。本文将简单介绍 Apache Cassandra 的安装以及简单使用,可以帮助大家快速了解 Apache Cassandra。我们到 Apache Cassandra 的官方网站下载最新版本的 Cassandra,在本文写作时最新版本的 Cassandra 为 3.11.4。Apache Cassandra 可以在 Linux、Unix、Mac OS 以及 Windows 上进行安装

  5个月前 (04-07) 884℃ 0评论4喜欢