跳转到主要内容

Dask和cuDF交互的实用工具

项目描述

 cuDF - GPU数据框

📢 cuDF现在可以用作无需代码更改的pandas加速器!要了解更多信息,请参阅此处

cuDF(发音为“库迪夫”)是一个GPU数据框库,用于加载数据、连接、聚合、过滤以及操纵数据等。cuDF利用libcudf,一个快速的C++/CUDA数据框库和Apache Arrow列格式,提供GPU加速的pandas API。

您可以直接导入cudf并像使用pandas一样使用它

import cudf

tips_df = cudf.read_csv("https://github.com/plotly/datasets/raw/master/tips.csv")
tips_df["tip_percentage"] = tips_df["tip"] / tips_df["total_bill"] * 100

# display average tip by dining party size
print(tips_df.groupby("size").tip_percentage.mean())

或者,您可以使用cuDF作为无需代码更改的pandas加速器,使用cudf.pandascudf.pandas支持100%的pandas API,利用cuDF进行支持的操作,并在需要时回退到pandas

%load_ext cudf.pandas  # pandas operations now use the GPU!

import pandas as pd

tips_df = pd.read_csv("https://github.com/plotly/datasets/raw/master/tips.csv")
tips_df["tip_percentage"] = tips_df["tip"] / tips_df["total_bill"] * 100

# display average tip by dining party size
print(tips_df.groupby("size").tip_percentage.mean())

资源

请参阅RAPIDS安装页面以获取有关安装cuDF和其他RAPIDS软件包的最新信息和命令。

安装

CUDA/GPU需求

  • CUDA 11.2+
  • NVIDIA驱动程序 450.80.02+
  • Volta架构或更好(计算能力 >=7.0)

Pip

cuDF可以通过从NVIDIA Python软件包索引使用pip进行安装。请确保根据您环境中可用的CUDA主要版本选择合适的cuDF软件包

对于CUDA 11.x

pip install --extra-index-url=https://pypi.nvidia.com cudf-cu11

对于CUDA 12.x

pip install --extra-index-url=https://pypi.nvidia.com cudf-cu12

Conda

cuDF可以使用conda(通过miniconda或完整的Anaconda发行版,从rapidsai通道)进行安装

conda install -c rapidsai -c conda-forge -c nvidia \
    cudf=24.08 python=3.11 cuda-version=12.5

我们还提供从最新开发分支的HEAD构建的夜间Conda软件包

注意:cuDF仅在Linux上受支持,并且与Python 3.9及以后的版本兼容。

有关更多操作系统和版本信息,请参阅RAPIDS安装指南

从源代码构建/安装

请参阅构建说明

贡献

请参阅我们关于如何为cuDF做出贡献的指南

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解有关安装软件包的更多信息。

源分布

dask_cudf_cu12-24.8.3.tar.gz (2.3 kB 查看散列

上传时间

支持者