NVIDIA cuTENSOR
项目描述
cuTENSOR 是一个用于张量原语的高性能CUDA库。
主要特性
广泛支持混合精度
FP64输入,FP32计算。
FP32输入,使用FP16、BF16或TF32进行计算。
复数-实数运算。
支持共轭(不进行转置)操作。
支持高达64维度的张量。
任意数据布局。
简单可序列化的数据结构。
主要计算例程
直接(即,无转置)张量收缩。
支持专用内核的即时编译。
张量缩减(包括部分缩减)。
元素级张量操作
支持各种激活函数。
支持输出张量的填充。
任意张量排列。
不同数据类型之间的转换。
文档
有关cuTENSOR文档,请参阅https://docs.nvda.net.cn/cuda/cutensor/index.html。
安装
cuTENSOR wheel可以按照以下方式安装
pip install cutensor-cuXX
其中XX是CUDA主要版本(目前支持CUDA 11 & 12)。包cutensor(不带-cuXX后缀)已弃用。如果您已安装cutensor,请先将其移除,然后再安装cutensor-cuXX。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。
源代码分发
此版本没有提供源代码分发文件。请参阅生成分发存档的教程。
构建分发
cutensor_cu12-2.0.2-py3-none-win_amd64.whl (145.0 MB 查看哈希值)
关闭
哈希值 for cutensor_cu12-2.0.2-py3-none-manylinux2014_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 18c96a4f1e8a559eec626527f5928d5f5b575f6c2b9c45e87309a025ae682334 |
|
MD5 | 1cc1e67fe05b55aae6f604f5518efc44 |
|
BLAKE2b-256 | edd661fc3511bc9e4cdb423b69964e3d344090b4093cbf9d3c8cc469ef4642d0 |
关闭
哈希值 for cutensor_cu12-2.0.2-py3-none-manylinux2014_aarch64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 1db559bdfe4345ac19ee66ab7ee49a54e98b1529fc96de812ade3dbc0a90ef47 |
|
MD5 | 6fb2971ae31c6dbb75a284618de6355f |
|
BLAKE2b-256 | f751786c275bc675e3f5d8d207c378652bfbd4c4103174ce857f1a04ff194211 |