PyTorch弹性训练
项目描述
TorchElastic
TorchElastic允许您以容错和弹性的方式启动分布式PyTorch作业。有关最新文档,请参阅我们的网站。
要求
torchelastic需要
- python3 (3.8+)
- torch
- etcd
安装
pip install torchelastic
快速入门
在4个节点上容错,每个节点8个训练器,总计4 * 8 = 32
个训练器。在所有节点上运行以下命令。
python -m torchelastic.distributed.launch
--nnodes=4
--nproc_per_node=8
--rdzv_id=JOB_ID
--rdzv_backend=etcd
--rdzv_endpoint=ETCD_HOST:ETCD_PORT
YOUR_TRAINING_SCRIPT.py (--arg1 ... train script args...)
在1 ~ 4个节点上弹性,每个节点8个训练器,总计8 ~ 32
个训练器。作业在至少1个节点健康时开始,您最多可以添加4个节点。
python -m torchelastic.distributed.launch
--nnodes=1:4
--nproc_per_node=8
--rdzv_id=JOB_ID
--rdzv_backend=etcd
--rdzv_endpoint=ETCD_HOST:ETCD_PORT
YOUR_TRAINING_SCRIPT.py (--arg1 ... train script args...)
贡献
我们欢迎PR。请参阅CONTRIBUTING文件。
许可证
torchelastic采用BSD许可证,如LICENSE文件所示。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解有关 安装包 的更多信息。
源分布
torchelastic-0.2.2.tar.gz (90.7 kB 查看哈希值)
构建分布
torchelastic-0.2.2-py3.8.egg (245.8 kB 查看哈希值)
torchelastic-0.2.2-py3-none-any.whl (111.5 kB 查看哈希值)
关闭
torchelastic-0.2.2.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | dd214aa807bf50120ff7a6544fd6b12a7996bf4767438998242f8b8b6959e11f |
|
MD5 | 26edf446974517c052ef47ab0890c938 |
|
BLAKE2b-256 | 4fb56b598fe8881a2de40e5a01100ab5932c8b791b9249ccc99c0d5006443c93 |
关闭
torchelastic-0.2.2-py3.8.egg 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | cb4f1d7844987ba95fa09ef00774f09ab3a5bf0ffeb61a4b330ca0d3fcbc1f74 |
|
MD5 | e960dc140e6caa62b2c0628fc1cc6929 |
|
BLAKE2b-256 | becc9e30a540a55a568673bfef28ed74c8e155ab82f9f3a1d72a26d45cf4dfc4 |
关闭
torchelastic-0.2.2-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 99c9f67f371c73e4c80b1ec71c36be91e5fdd106edcf4c848415bf55cfed6416 |
|
MD5 | 73903dfd9e2ed5c7753aacef2daa409b |
|
BLAKE2b-256 | 0fcfa1c438dce530fee452acbce43a561c1cbbd8c158a1766b927184a1692fee |