跳转到主要内容

NVIDIA cuSPARSELt

项目描述

NVIDIA cuSPARSELt 是一个高性能CUDA库,专注于至少一个操作数是稀疏矩阵的通用矩阵-矩阵操作

\begin{equation*} D = Activation(\alpha op(A) \cdot op(B) + \beta op(C) + bias) \cdot scale \end{equation*}

其中 \(op(A)/op(B)\) 指的是就地操作,如转置/非转置,而 \(alpha, beta, scale\) 是标量。

cuSPARSELt API允许在算法/操作选择、尾操作和矩阵特性方面具有灵活性,包括内存布局、对齐和数据类型。

下载: developer.nvidia.com/cusparselt/downloads

提供反馈: Math-Libs-Feedback@nvidia.com

示例: cuSPARSELt 示例 1, cuSPARSELt 示例 2

博客文章:

主要功能

  • NVIDIA稀疏MMA张量核心 支持

  • 混合精度计算支持

    输入A/B

    输入C

    输出D

    计算

    FP32

    FP32

    FP32

    FP32

    FP16

    FP16

    FP16

    FP32

    FP16

    BF16

    BF16

    BF16

    FP32

    INT8

    INT8

    INT8

    INT32

    INT32

    INT32

    FP16

    FP16

    BF16

    BF16

    E4M3

    FP16

    E4M3

    FP32

    BF16

    E4M3

    FP16

    FP16

    BF16

    BF16

    FP32

    FP32

    E5M2

    FP16

    E5M2

    FP32

    BF16

    E5M2

    FP16

    FP16

    BF16

    BF16

    FP32

    FP32

  • 矩阵剪枝和压缩功能

  • 激活函数、偏置向量和输出缩放

  • 批量计算(单次运行多个矩阵)

  • GEMM Split-K模式

  • 自动调优功能(参见 cusparseLtMatmulSearch()

  • NVTX范围和日志记录功能

支持

  • 支持的SM架构: SM 8.0, SM 8.6, SM 8.9, SM 9.0

  • 支持的CPU架构和操作系统:

操作系统

CPU架构

Windows

x86_64

Linux

x86_64, Arm64

文档

请参阅https://docs.nvda.net.cn/cuda/cusparselt/index.html获取cuSPARSELt文档。

安装

cuSPARSELt wheel可以按照以下方式安装

pip install cusparselt-cuXX

其中XX是CUDA主版本(目前仅支持CUDA 12)。

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定要选择哪个,请了解更多关于安装包的信息。

源代码分发

此版本没有可用的源代码分发文件。请参阅生成分发存档的教程

构建分发

nvidia_cusparselt_cu12-0.6.2-py3-none-win_amd64.whl (148.8 MB 查看散列)

上传时间 Python 3 Windows x86-64

nvidia_cusparselt_cu12-0.6.2-py3-none-manylinux2014_x86_64.whl (150.1 MB 查看散列)

上传时间 Python 3

nvidia_cusparselt_cu12-0.6.2-py3-none-manylinux2014_aarch64.whl (149.4 MB 查看散列)

上传时间 Python 3

支持者

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面