Koalas: 让 pandas 开发者轻松过渡到 Apache Spark

摘要今年的 Spark + AI Summit 2019 databricks 开源了几个重磅的项目,比如 Delta Lake,Koalas 等,Koalas 是一个新的开源项目,它增强了 PySpark 的 DataFrame API,使其与 pandas 兼容。 Python 数据科学在过去几年中爆炸式增长,pandas 已成为生态系统的关键。 当数据科学家拿到一个数据集时,他们会使用 pandas 进行探索。 它是数据清洗和分析的终极工具。 事实上,pandas 的 read_csv 函数通常是学生在数据科学旅程中的第一个命令。 那么这么用的问题是什么呢? pandas 不能很好地适应大数据,它专为单机处理小型数据集而设计…

本站声明

本站所有下载资源收集于网络,只做学习和交流使用,版权归原作者所有,若为付费视频,请在下载后24小时之>内自觉删除,若作商业用途,请购买正版,由于未及时购买和付费发生的侵权行为,与本站无关。本站发布的内容若侵犯到您的权益,请联系站长删除, 我们将及时处理!

如果您发现该资源已经失效不能下载,请联系站长修正!给我 留言

本站视频全部免费下载,如果出现不能显示下载地址的情况,请留言联系我。

Copyright © 2013-2015 Spark技术博客版权所有 京ICP备14057018号