跳转到主要内容

Koalas:Apache Spark上的pandas API

项目描述

注意: Koalas 支持 Apache Spark 3.1 及以下版本,因为它在即将发布的 Apache Spark 3.2 中将被正式纳入 PySpark。现在此存储库处于维护模式。对于 Apache Spark 3.2 及以上版本,请直接使用 PySpark。

Apache Spark 上的 pandas API
探索 Koalas 文档 »

实时笔记本 · 问题 · 邮件列表
帮助受近期火灾影响的干渴考拉开发者

Koalas 项目通过在 Apache Spark 上实现 pandas DataFrame API,使数据科学家在与大数据交互时更加高效。

pandas 是 Python 中事实上的标准(单节点)DataFrame 实现,而 Spark 是大数据处理的事实上的标准。使用本包,您可以

  • 如果您已经熟悉 pandas,则无需学习曲线即可立即使用 Spark。
  • 拥有一个代码库,该代码库可以同时与 pandas(测试、小型数据集)和 Spark(分布式数据集)一起使用。

我们非常希望您尝试它,并通过我们的 邮件列表GitHub 问题 提供反馈。

您可以在实时 Jupyter 笔记本中尝试 Koalas 10 分钟教程 此处。初始启动可能需要几分钟。

Github Actions codecov Documentation Status Latest Release Conda Version Binder Downloads

入门指南

Koalas 可以通过多种方式安装,例如 Conda 和 pip。

# Conda
conda install koalas -c conda-forge
# pip
pip install koalas

有关详细信息,请参阅 安装

对于 Databricks Runtime,Koalas 已预安装在 Databricks Runtime 7.1 及以上版本中。免费试用 Databricks 社区版。您还可以按照这些 步骤 手动在 Databricks 上安装库。

最后,如果您的 PyArrow 版本为 0.15+ 且您的 PySpark 版本低于 3.0,您最好手动将环境变量 ARROW_PRE_0_15_IPC_FORMAT 设置为 1。Koalas 会尽力为您设置它,但如果已经启动了 Spark 上下文,则无法设置。

现在您可以将 pandas DataFrame 转换为与前者 API 兼容的 Koalas DataFrame

import databricks.koalas as ks
import pandas as pd

pdf = pd.DataFrame({'x':range(3), 'y':['a','b','b'], 'z':['a','b','b']})

# Create a Koalas DataFrame from pandas DataFrame
df = ks.from_pandas(pdf)

# Rename the columns
df.columns = ['x', 'y', 'z1']

# Do some operations in place:
df['x2'] = df.x * df.x

有关详细信息,请参阅官方文档中的 入门指南依赖项

贡献指南

请参阅官方文档中的 贡献指南设计原则

常见问题解答

请参阅官方文档中的 常见问题解答

最佳实践

请参阅官方文档中的 最佳实践

Koalas 讲座和博客

请参阅官方文档中的 Koalas 讲座和博客

项目详情


下载文件

下载适合您平台的文件。如果您不确定该选择哪个,请了解更多关于安装包的信息。

源代码分发

koalas-1.8.2.tar.gz (357.8 kB 查看哈希值)

上传时间 源代码

构建分发

koalas-1.8.2-py3-none-any.whl (390.8 kB 查看哈希值)

上传时间 Python 3

由以下机构支持

AWSAWS 云计算和安全赞助商DatadogDatadog 监控FastlyFastly CDNGoogleGoogle 下载分析MicrosoftMicrosoft PSF 赞助商PingdomPingdom 监控SentrySentry 错误记录StatusPageStatusPage 状态页面