NVIDIA cuTENSOR
项目描述
cuTENSOR 是一个高性能CUDA张量原语库。
主要功能
广泛的混合精度支持
FP64输入,FP32计算。
FP32输入,使用FP16、BF16或TF32进行计算。
复数-实数运算。
支持共轭(不转置)操作。
支持高达64维的张量。
任意数据布局。
简单可序列化的数据结构。
主要计算程序
直接(即无转置)张量收缩。
支持特定内核的即时编译。
张量缩减(包括部分缩减)。
逐元素张量操作
支持各种激活函数。
支持输出张量的填充。
任意张量排列。
不同数据类型之间的转换。
文档
有关cuTENSOR文档,请参阅https://docs.nvda.net.cn/cuda/cutensor/index.html。
安装
cuTENSOR轮盘可以按以下方式安装
pip install cutensor-cuXX
其中XX是CUDA主版本(目前支持CUDA 11 & 12)。未使用-cuXX后缀的包cutensor已被弃用。如果您已安装cutensor,请在安装cutensor-cuXX之前将其删除。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解有关安装软件包的更多信息。
源分布
此版本没有源分布文件。有关创建发行档案的教程,请参阅生成发行档案。
构建分布
cutensor_cu11-2.0.2-py3-none-win_amd64.whl (143.4 MB 查看哈希值)
关闭
哈希值 for cutensor_cu11-2.0.2-py3-none-manylinux2014_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 6d37a1164cb02d74322b35b09f018ce51aff078dedee10823820b9d878ebb8c3 |
|
MD5 | 594dd2e6bb48303b91df94281603a172 |
|
BLAKE2b-256 | 3d005eb39fbd12ecfe727f15749337ecda5585977ae9d969c2f7c69a12f55649 |
关闭
哈希值 for cutensor_cu11-2.0.2-py3-none-manylinux2014_aarch64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | e17003e5f5cf0e83292e9e7e380b64c87a311f8096b3a287a630cbab743ef52f |
|
MD5 | f063f5299c4da6ccba3fa60aa8f4a2fa |
|
BLAKE2b-256 | 3193d8ee8ac22b83e004c6d1f8e16a6f50834ffb300f4db032dac257e77e8ba8 |