NVIDIA cuSPARSELt
项目描述
NVIDIA cuSPARSELt 是一个高性能CUDA库,专注于至少一个操作数是稀疏矩阵的通用矩阵-矩阵操作
其中 \(op(A)/op(B)\) 指的是就地操作,如转置/非转置,而 \(alpha, beta, scale\) 是标量。
cuSPARSELt API允许在算法/操作选择、尾操作和矩阵特性方面具有灵活性,包括内存布局、对齐和数据类型。
下载: developer.nvidia.com/cusparselt/downloads
提供反馈: Math-Libs-Feedback@nvidia.com
示例: cuSPARSELt 示例 1, cuSPARSELt 示例 2
博客文章:
主要功能
NVIDIA稀疏MMA张量核心 支持
混合精度计算支持
输入A/B
输入C
输出D
计算
FP32
FP32
FP32
FP32
FP16
FP16
FP16
FP32
FP16
BF16
BF16
BF16
FP32
INT8
INT8
INT8
INT32
INT32
INT32
FP16
FP16
BF16
BF16
E4M3
FP16
E4M3
FP32
BF16
E4M3
FP16
FP16
BF16
BF16
FP32
FP32
E5M2
FP16
E5M2
FP32
BF16
E5M2
FP16
FP16
BF16
BF16
FP32
FP32
矩阵剪枝和压缩功能
激活函数、偏置向量和输出缩放
批量计算(单次运行多个矩阵)
GEMM Split-K模式
自动调优功能(参见 cusparseLtMatmulSearch())
NVTX范围和日志记录功能
支持
支持的SM架构: SM 8.0, SM 8.6, SM 8.9, SM 9.0
支持的CPU架构和操作系统:
操作系统 |
CPU架构 |
---|---|
Windows |
x86_64 |
Linux |
x86_64, Arm64 |
文档
请参阅https://docs.nvda.net.cn/cuda/cusparselt/index.html获取cuSPARSELt文档。
安装
cuSPARSELt wheel可以按照以下方式安装
pip install cusparselt-cuXX
其中XX是CUDA主版本(目前仅支持CUDA 12)。
项目详情
散列 for nvidia_cusparselt_cu12-0.6.2-py3-none-win_amd64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 0057c91d230703924c0422feabe4ce768841f9b4b44d28586b6f6d2eb86fbe70 |
|
MD5 | f61eb02aaead7e1b7b5803d287bd7cb8 |
|
BLAKE2b-256 | 568f2c33082238b6c5e783a877dc8786ab62619e3e6171c083bd3bba6e3fe75e |
散列 for nvidia_cusparselt_cu12-0.6.2-py3-none-manylinux2014_x86_64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | df2c24502fd76ebafe7457dbc4716b2fec071aabaed4fb7691a201cde03704d9 |
|
MD5 | a70d0fe7cd4f14bcfcb36155f42cd130 |
|
BLAKE2b-256 | 78a8bcbb63b53a4b1234feeafb65544ee55495e1bb37ec31b999b963cbccfd1d |
散列 for nvidia_cusparselt_cu12-0.6.2-py3-none-manylinux2014_aarch64.whl
算法 | 散列摘要 | |
---|---|---|
SHA256 | 067a7f6d03ea0d4841c85f0c6f1991c5dda98211f6302cb83a4ab234ee95bef8 |
|
MD5 | ddaf3383e24d67aa1691f79a35d3f9c6 |
|
BLAKE2b-256 | 988e675498726c605c9441cf46653bd29cb1b8666da1fb1469ffa25f67f20c58 |