跳转到主要内容

cuDF - GPU Dataframe

项目描述

 cuDF - GPU DataFrames

📢 cuDF现在可以作为无需代码更改的pandas加速器!了解更多信息,请参阅这里

cuDF(发音为“库-迪-艾夫”)是一个用于加载数据、连接、聚合、过滤和其他数据操作操作的GPU DataFrame库。cuDF利用libcudf,一个快速的C++/CUDA DataFrame库和Apache Arrow列式格式,提供一个GPU加速的pandas API。

您可以直接导入cudf并像使用pandas一样使用它

import cudf

tips_df = cudf.read_csv("https://github.com/plotly/datasets/raw/master/tips.csv")
tips_df["tip_percentage"] = tips_df["tip"] / tips_df["total_bill"] * 100

# display average tip by dining party size
print(tips_df.groupby("size").tip_percentage.mean())

或者,您可以使用cuDF作为pandas的无代码更改加速器,使用cudf.pandascudf.pandas支持100%的pandas API,利用cuDF进行受支持的运算,并在需要时回退到pandas

%load_ext cudf.pandas  # pandas operations now use the GPU!

import pandas as pd

tips_df = pd.read_csv("https://github.com/plotly/datasets/raw/master/tips.csv")
tips_df["tip_percentage"] = tips_df["tip"] / tips_df["total_bill"] * 100

# display average tip by dining party size
print(tips_df.groupby("size").tip_percentage.mean())

资源

请参阅 RAPIDS 安装页面 以获取安装 cuDF 和其他 RAPIDS 包的最新信息和命令。

安装

CUDA/GPU 要求

  • CUDA 11.2+
  • NVIDIA 驱动程序 450.80.02+
  • Volta 架构或更高(计算能力 >=7.0)

Pip

cuDF 可以通过从 NVIDIA Python 包索引使用 pip 安装。请确保根据您环境中可用的 CUDA 主要版本选择合适的 cuDF 包

CUDA 11.x 版本

pip install --extra-index-url=https://pypi.nvidia.com cudf-cu11

CUDA 12.x 版本

pip install --extra-index-url=https://pypi.nvidia.com cudf-cu12

Conda

cuDF 可以通过 conda(通过 miniconda 或来自 rapidsai 通道的完整 Anaconda 发行版)安装

conda install -c rapidsai -c conda-forge -c nvidia \
    cudf=24.08 python=3.11 cuda-version=12.5

我们还提供从我们最新开发分支的 HEAD 构建的 夜间 Conda 包

注意:cuDF 仅支持 Linux,以及 Python 3.9 及更高版本。

有关更多操作系统和版本信息,请参阅 RAPIDS 安装指南

从源代码构建/安装

请参阅构建 说明

贡献

请参阅我们 关于向 cuDF 贡献的指南

由以下机构支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面