Koalas:Apache Spark上的pandas API
项目描述
注意: Koalas 支持 Apache Spark 3.1 及以下版本,因为它在即将发布的 Apache Spark 3.2 中将被正式纳入 PySpark。现在此存储库处于维护模式。对于 Apache Spark 3.2 及以上版本,请直接使用 PySpark。
Apache Spark 上的 pandas API
探索 Koalas 文档 »
实时笔记本 · 问题 · 邮件列表
帮助受近期火灾影响的干渴考拉开发者
Koalas 项目通过在 Apache Spark 上实现 pandas DataFrame API,使数据科学家在与大数据交互时更加高效。
pandas 是 Python 中事实上的标准(单节点)DataFrame 实现,而 Spark 是大数据处理的事实上的标准。使用本包,您可以
- 如果您已经熟悉 pandas,则无需学习曲线即可立即使用 Spark。
- 拥有一个代码库,该代码库可以同时与 pandas(测试、小型数据集)和 Spark(分布式数据集)一起使用。
我们非常希望您尝试它,并通过我们的 邮件列表 或 GitHub 问题 提供反馈。
您可以在实时 Jupyter 笔记本中尝试 Koalas 10 分钟教程 此处。初始启动可能需要几分钟。
入门指南
Koalas 可以通过多种方式安装,例如 Conda 和 pip。
# Conda
conda install koalas -c conda-forge
# pip
pip install koalas
有关详细信息,请参阅 安装。
对于 Databricks Runtime,Koalas 已预安装在 Databricks Runtime 7.1 及以上版本中。免费试用 Databricks 社区版。您还可以按照这些 步骤 手动在 Databricks 上安装库。
最后,如果您的 PyArrow 版本为 0.15+ 且您的 PySpark 版本低于 3.0,您最好手动将环境变量 ARROW_PRE_0_15_IPC_FORMAT
设置为 1
。Koalas 会尽力为您设置它,但如果已经启动了 Spark 上下文,则无法设置。
现在您可以将 pandas DataFrame 转换为与前者 API 兼容的 Koalas DataFrame
import databricks.koalas as ks
import pandas as pd
pdf = pd.DataFrame({'x':range(3), 'y':['a','b','b'], 'z':['a','b','b']})
# Create a Koalas DataFrame from pandas DataFrame
df = ks.from_pandas(pdf)
# Rename the columns
df.columns = ['x', 'y', 'z1']
# Do some operations in place:
df['x2'] = df.x * df.x
贡献指南
常见问题解答
请参阅官方文档中的 常见问题解答。
最佳实践
请参阅官方文档中的 最佳实践。
Koalas 讲座和博客
请参阅官方文档中的 Koalas 讲座和博客。
项目详情
下载文件
下载适合您平台的文件。如果您不确定该选择哪个,请了解更多关于安装包的信息。
源代码分发
构建分发
koalas-1.8.2.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | cd072f1a9ae97e87e85e53a1c8a3097777c76f45504e79782d0acff5282fe586 |
|
MD5 | 423c3b93f51d076df668e1980987d6df |
|
BLAKE2b-256 | b6c481dce696d90ac382e31ded2d8ba09205f8cb4633aa0a6fbb23c8d4874047 |
koalas-1.8.2-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | ebf00963ac604ee8763ab53ebb028bea3c7732a20cb10f4e52c9ae6a008a749f |
|
MD5 | 8da40e5c58528a0a2c41eecd04f0c62d |
|
BLAKE2b-256 | 289ad69cf12ea62116873b427e5843be8ae8431b18f2a0714d6f4eec3ee4cda6 |