跳转到主要内容

PyTorch的分布式训练

项目描述

distbelief

实现Google的DistBelief论文。

安装/开发说明

您首先需要通过运行make setup来创建一个python3虚拟环境,然后运行make install

然后您可以通过导入distbelief来使用distbelief

from distbelief.optim import DownpourSGD

optimizer = DownpourSGD(net.parameters(), lr=0.1, n_push=5, n_pull=5, model=net)

例如,您可以通过在example/main.py中提供的脚本运行我们的实现。

要本地运行2个训练节点的设置,打开三个终端窗口,使用venv,然后运行make firstmake secondmake server。这将开始在本地使用所有默认参数对CIFAR10上的AlexNet进行训练。

基准测试

注意:我们绘制了每个节点的训练/测试准确率,因此是node1,node2,node3。更好的比较将是对参数服务器参数进行评估并使用该值。但是,我们可以看到三个节点之间的准确率相当一致,添加评估器可能会给我们的服务器带来过多的压力。

我们将节点的学习率缩放为学习率/freq (.03)。

train

test

我们使用了AWS c4.xlarge实例来比较CPU运行,以及GTX 1060用于GPU运行。

PyTorch的DownpourSGD

图表

这里 23 是并发发生的。

您可以在这里了解更多关于我们实现的信息。

参考文献

项目详情


下载文件

下载您平台对应的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

pytorch-distbelief-0.1.0.tar.gz (4.6 kB 查看哈希值)

上传时间

构建分布

pytorch_distbelief-0.1.0-py3-none-any.whl (6.3 kB 查看哈希值)

上传时间 Python 3

由以下组织支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页