NVIDIA cuSPARSELt
项目描述
NVIDIA cuSPARSELt 是一个高性能CUDA库,专注于至少一个操作数是稀疏矩阵的通用矩阵-矩阵操作
其中 \(op(A)/op(B)\) 指的是就地操作,如转置/非转置,而 \(alpha, beta, scale\) 是标量。
cuSPARSELt API允许在算法/操作选择、尾操作和矩阵特性方面具有灵活性,包括内存布局、对齐和数据类型。
下载: developer.nvidia.com/cusparselt/downloads
提供反馈: Math-Libs-Feedback@nvidia.com
示例: cuSPARSELt 示例 1, cuSPARSELt 示例 2
博客文章:
主要功能
- NVIDIA稀疏MMA张量核心 支持 
- 混合精度计算支持 - 输入A/B - 输入C - 输出D - 计算 - FP32 - FP32 - FP32 - FP32 - FP16 - FP16 - FP16 - FP32 - FP16 - BF16 - BF16 - BF16 - FP32 - INT8 - INT8 - INT8 - INT32 - INT32 - INT32 - FP16 - FP16 - BF16 - BF16 - E4M3 - FP16 - E4M3 - FP32 - BF16 - E4M3 - FP16 - FP16 - BF16 - BF16 - FP32 - FP32 - E5M2 - FP16 - E5M2 - FP32 - BF16 - E5M2 - FP16 - FP16 - BF16 - BF16 - FP32 - FP32 
- 矩阵剪枝和压缩功能 
- 激活函数、偏置向量和输出缩放 
- 批量计算(单次运行多个矩阵) 
- GEMM Split-K模式 
- 自动调优功能(参见 cusparseLtMatmulSearch()) 
- NVTX范围和日志记录功能 
支持
- 支持的SM架构: SM 8.0, SM 8.6, SM 8.9, SM 9.0 
- 支持的CPU架构和操作系统: 
| 操作系统 | CPU架构 | 
|---|---|
| Windows | x86_64 | 
| Linux | x86_64, Arm64 | 
文档
请参阅https://docs.nvda.net.cn/cuda/cusparselt/index.html获取cuSPARSELt文档。
安装
cuSPARSELt wheel可以按照以下方式安装
pip install cusparselt-cuXX其中XX是CUDA主版本(目前仅支持CUDA 12)。
项目详情
散列 for nvidia_cusparselt_cu12-0.6.2-py3-none-win_amd64.whl
| 算法 | 散列摘要 | |
|---|---|---|
| SHA256 | 0057c91d230703924c0422feabe4ce768841f9b4b44d28586b6f6d2eb86fbe70 | |
| MD5 | f61eb02aaead7e1b7b5803d287bd7cb8 | |
| BLAKE2b-256 | 568f2c33082238b6c5e783a877dc8786ab62619e3e6171c083bd3bba6e3fe75e | 
散列 for nvidia_cusparselt_cu12-0.6.2-py3-none-manylinux2014_x86_64.whl
| 算法 | 散列摘要 | |
|---|---|---|
| SHA256 | df2c24502fd76ebafe7457dbc4716b2fec071aabaed4fb7691a201cde03704d9 | |
| MD5 | a70d0fe7cd4f14bcfcb36155f42cd130 | |
| BLAKE2b-256 | 78a8bcbb63b53a4b1234feeafb65544ee55495e1bb37ec31b999b963cbccfd1d | 
散列 for nvidia_cusparselt_cu12-0.6.2-py3-none-manylinux2014_aarch64.whl
| 算法 | 散列摘要 | |
|---|---|---|
| SHA256 | 067a7f6d03ea0d4841c85f0c6f1991c5dda98211f6302cb83a4ab234ee95bef8 | |
| MD5 | ddaf3383e24d67aa1691f79a35d3f9c6 | |
| BLAKE2b-256 | 988e675498726c605c9441cf46653bd29cb1b8666da1fb1469ffa25f67f20c58 |