欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:1033
  2. 浏览总数:13,364,607
  3. 评论:4079
  4. 分类目录:108 个
  5. 注册用户数:6783
  6. 最后更新:2019年6月12日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
Hadoop技术博文:
bigdata_ai

2019年04月的内容

Spark

Koalas: 让 pandas 开发者轻松过渡到 Apache Spark

Koalas: 让 pandas 开发者轻松过渡到 Apache Spark
今年的 Spark + AI Summit 2019 databricks 开源了几个重磅的项目,比如 Delta Lake,Koalas 等,Koalas 是一个新的开源项目,它增强了 PySpark 的 DataFrame API,使其与 pandas 兼容。Python 数据科学在过去几年中爆炸式增长,pandas 已成为生态系统的关键。 当数据科学家拿到一个数据集时,他们会使用 pandas 进行探索。 它是数据清洗和分析的终极工

w397090770   2个月前 (04-29) 664℃ 0评论4喜欢

Spark

.NET for Apache Spark 预览版正式发布

.NET for Apache Spark 预览版正式发布
2019年4月25日,微软的 Rahul Potharaju、Terry Kim 以及 Tyson Condie 在 Spark + AI Summit 2019 会议上为我们带来主题为 《Introducing .NET Bindings for Apache Spark 》的分享,并宣布 .NET for Apache Spark 预览版正式发布。.NET 框架是由微软开发,一个致力于敏捷软件开发、快速应用开发、平台无关性和网络透明化的免费软件框架,用于构建许多不同类型的

w397090770   2个月前 (04-28) 1050℃ 0评论2喜欢

Cassandra

Apache Cassandra 数据存储模型

Apache Cassandra 数据存储模型
我们在《Apache Cassandra 简介》文章中介绍了 Cassandra 的数据模型类似于 Google 的 Bigtable,对应的开源实现为 Apache HBase,而且我们在 《HBase基本知识介绍及典型案例分析》 文章中简单介绍了 Apache HBase 的数据模型。按照这个思路,Apache Cassandra 的数据模型应该和 Apache HBase 的数据模型很类似,那么这两者的数据存储模型是不是一样的呢?

w397090770   2个月前 (04-28) 283℃ 0评论2喜欢

Spark

Apache Spark 社区期待的 Delta Lake 开源了

Apache Spark 社区期待的 Delta Lake 开源了
本文英文原文:Open Sourcing Delta Lake2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上,Databricks 的联合创始人及 CEO Ali Ghodsi 宣布将 Databricks Runtime 里面的 Delta Lake 基于 Apache License 2.0 协议开源。Delta Lake 是一个存储层,为 Apache Spark 和大数据 workloads 提供 ACID 事务能力,其通过写和快照隔离之间的乐观并发控制(optimistic concurrency

w397090770   2个月前 (04-25) 1871℃ 0评论7喜欢

Flink

Flink Forward 201904 PPT资料下载

Flink Forward 201904 PPT资料下载
Flink Forward 是由 Apache 官方授权,Apache Flink China社区支持,有来自阿里巴巴,Ververica(Apache Flink 商业母公司)、腾讯、Google、Airbnb以及 Uber 等公司参加的国际型会议。旨在汇集大数据领域一流人才共同探讨新一代大数据计算引擎技术。通过参会不仅可以了解到Flink社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕Flink生

w397090770   2个月前 (04-20) 1279℃ 0评论6喜欢

Cassandra

Apache Cassandra 内置及自定义数据类型

Apache Cassandra 内置及自定义数据类型
到目前为止,我们在使用 CQL 建表的时候使用到了一些数据类型,比如 text、timeuuid等。本文将介绍 Apache Cassandra 内置及自定义数据类型。和其他语言一样,CQL 也支持一系列灵活的数据类型,包括基本的数据类型,集合类型以及用户自定义数据类(User-Defined Types,UDTs)。下面将介绍 CQL 支持的数据类型。如果想及时了解Spark、Hadoop或

w397090770   2个月前 (04-15) 231℃ 0评论1喜欢

Cassandra

Apache Cassandra static column 介绍与实战

Apache Cassandra static column 介绍与实战
假设我们有这样的场景:我们想在 Cassandra 中使用一张表记录用户基本信息(比如 email、密码等)以及用户状态更新。我们知道,用户的基本信息一般很少会变动,但是状态会经常变化,如果每次状态更新都把用户基本信息都加进去,势必会让费大量的存储空间。为了解决这种问题,Cassandra 引入了 static column。同一个 partition key 中被

w397090770   2个月前 (04-12) 241℃ 0评论1喜欢

Cassandra

Apache Cassandra Composite Key\Partition key\Clustering key 介绍

Apache Cassandra Composite Key\Partition key\Clustering key 介绍
在前面的文章《Apache Cassandra 快速入门指南(Quick Start)》 我们简单介绍了 Cassandra 的一些基本知识。在那篇文章里面我们使用了下面语句创建了一张名为 iteblog_user 的表:[code lang="sql"]cqlsh> use iteblog_keyspace;cqlsh:iteblog_keyspace> CREATE TABLE iteblog_user (first_name text , last_name text, PRIMARY KEY (first_name)) ;[/code]建表语句里面有个 PRIMARY KE

w397090770   2个月前 (04-09) 193℃ 2评论0喜欢

Cassandra

Apache Cassandra 快速入门指南(Quick Start)

Apache Cassandra 快速入门指南(Quick Start)
我们在这篇文章简单介绍了 Apache Cassandra 是什么,以及有什么值得关注的特性。本文将简单介绍 Apache Cassandra 的安装以及简单使用,可以帮助大家快速了解 Apache Cassandra。我们到 Apache Cassandra 的官方网站下载最新版本的 Cassandra,在本文写作时最新版本的 Cassandra 为 3.11.4。Apache Cassandra 可以在 Linux、Unix、Mac OS 以及 Windows 上进行安装

w397090770   2个月前 (04-07) 522℃ 0评论4喜欢

HBase

SHC:使用 Spark SQL 高效地读写 HBase

SHC:使用 Spark SQL 高效地读写 HBase
Apache Spark 和 Apache HBase 是两个使用比较广泛的大数据组件。很多场景需要使用 Spark 分析/查询 HBase 中的数据,而目前 Spark 内置是支持很多数据源的,其中就包括了 HBase,但是内置的读取数据源还是使用了 TableInputFormat 来读取 HBase 中的数据。这个 TableInputFormat 有一些缺点:一个 Task 里面只能启动一个 Scan 去 HBase 中读取数据;TableIn

w397090770   3个月前 (04-02) 2177℃ 5评论6喜欢