欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

2019年10月的内容

Docker

在 Docker 中运行 Apache Phoenix 并启用远程调试

在 Docker 中运行 Apache Phoenix 并启用远程调试
最近由于工作方面的原因需要解析 Apache Phoenix 底层的原始文件,也就是存在 HDFS 上的 HFile。但是由于 Phoenix 有自身的一套数据编码方式,但是由于本人对 Phoenix 这套根本就不熟悉,所以只能自己去看相关代码。但是 Apache Phoenix 是个大工程啊,不可能一个一个文件去找的,这会相当的慢。这时候我想到的是搭建一个 Phoenix 测试环境,

w397090770   5年前 (2019-10-22) 3753℃ 0评论2喜欢

Spark

Apache Spark 背后公司 Databricks 完成F轮融资,高达62亿美元估值

Apache Spark 背后公司 Databricks 完成F轮融资,高达62亿美元估值
2019年10月22日上午 Databricks 宣布,已经完成了由安德森-霍洛维茨基金(Andreessen Horowitz)牵头的4亿美元F轮融资,参与融资的有微软(Microsoft)、Alkeon Capital Management、贝莱德(BlackRock)、Coatue Management、Dragoneer Investment Group、Geodesic、Green Bay Ventures、New Enterprise Associates、T. Rowe Price和Tiger Global Management。经过这次融资,Databricks 的估值高达62亿美

w397090770   5年前 (2019-10-22) 1093℃ 0评论0喜欢

Delta Lake

Apache Spark Delta Lake 更新使用及实现原理代码解析

Apache Spark Delta Lake 更新使用及实现原理代码解析
Apache Spark Delta Lake 的更新(update)和删除都是在 0.3.0 版本发布的,参见这里,对应的 Patch 参见这里。和前面几篇源码分析文章一样,我们也是先来看看在 Delta Lake 里面如何使用更新这个功能。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoopDelta Lake 更新使用Delta Lake 的官方文档为我们提供如何

w397090770   5年前 (2019-10-19) 2005℃ 0评论3喜欢

Delta Lake

Spark Delta Lake 现在由Linux基金会托管,将成为数据湖的开放标准

Spark Delta Lake 现在由Linux基金会托管,将成为数据湖的开放标准
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop一年一度的 Spark + AI Summit Europe 峰会于2019年10月15-17日在欧洲的阿姆斯特丹举行。在10年16日 数砖和 Linux 基金会共同宣布 Delta Lake 和 将成为一个 Linux 基金会项目(参考:The Delta Lake Project Turns to Linux Foundation to Become the Open Standard for Data Lakes)。该项

w397090770   5年前 (2019-10-16) 1218℃ 0评论2喜欢

Delta Lake

使用 Python APIs 对 Delta Lake 表进行简单可靠的更新和删除操作

使用 Python APIs 对 Delta Lake 表进行简单可靠的更新和删除操作
在这篇我们介绍了 Spark Delta Lake 0.4.0 的发布,并提到这个版本支持 Python API 和部分 SQL。本文我们将详细介绍 Delta Lake 0.4.0 Python API 的使用。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop在本文中,我们将基于 Apache Spark™ 2.4.3,演示一个准时航班情况业务场景中,如何使用全新的 Delta Lake 0.4.0

w397090770   5年前 (2019-10-04) 887℃ 0评论1喜欢

Delta Lake

Spark Delta Lake 0.4.0 发布,支持 Python API 和部分 SQL

Spark Delta Lake 0.4.0 发布,支持 Python API 和部分 SQL
​Apache Spark 发布了 Delta Lake 0.4.0,主要支持 DML 的 Python API、将 Parquet 表转换成 Delta Lake 表 以及部分 SQL 功能。 如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop下面详细地介绍这些功能部分功能的 SQL 支持SQL 的支持能够为用户提供极大的便利,如果大家去看数砖的 Delta Lake 产品,你肯定已

w397090770   5年前 (2019-10-01) 1252℃ 0评论4喜欢