跳转到主要内容

PyTorch弹性训练

项目描述

LicenseCircleCI

TorchElastic

TorchElastic允许您以容错和弹性的方式启动分布式PyTorch作业。有关最新文档,请参阅我们的网站

要求

torchelastic需要

  • python3 (3.8+)
  • torch
  • etcd

安装

pip install torchelastic

快速入门

在4个节点上容错,每个节点8个训练器,总计4 * 8 = 32个训练器。在所有节点上运行以下命令。

python -m torchelastic.distributed.launch
            --nnodes=4
            --nproc_per_node=8
            --rdzv_id=JOB_ID
            --rdzv_backend=etcd
            --rdzv_endpoint=ETCD_HOST:ETCD_PORT
            YOUR_TRAINING_SCRIPT.py (--arg1 ... train script args...)

在1 ~ 4个节点上弹性,每个节点8个训练器,总计8 ~ 32个训练器。作业在至少1个节点健康时开始,您最多可以添加4个节点。

python -m torchelastic.distributed.launch
            --nnodes=1:4
            --nproc_per_node=8
            --rdzv_id=JOB_ID
            --rdzv_backend=etcd
            --rdzv_endpoint=ETCD_HOST:ETCD_PORT
            YOUR_TRAINING_SCRIPT.py (--arg1 ... train script args...)

贡献

我们欢迎PR。请参阅CONTRIBUTING文件。

许可证

torchelastic采用BSD许可证,如LICENSE文件所示。

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解有关 安装包 的更多信息。

源分布

torchelastic-0.2.2.tar.gz (90.7 kB 查看哈希值)

上传时间

构建分布

torchelastic-0.2.2-py3.8.egg (245.8 kB 查看哈希值)

上传时间

torchelastic-0.2.2-py3-none-any.whl (111.5 kB 查看哈希值)

上传时间 Python 3

由以下机构支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页