PyTorch的分布式训练
项目描述
distbelief
实现Google的DistBelief论文。
安装/开发说明
您首先需要通过运行make setup
来创建一个python3虚拟环境,然后运行make install
。
然后您可以通过导入distbelief来使用distbelief
from distbelief.optim import DownpourSGD
optimizer = DownpourSGD(net.parameters(), lr=0.1, n_push=5, n_pull=5, model=net)
例如,您可以通过在example/main.py
中提供的脚本运行我们的实现。
要本地运行2个训练节点的设置,打开三个终端窗口,使用venv
,然后运行make first
,make second
和make server
。这将开始在本地使用所有默认参数对CIFAR10上的AlexNet进行训练。
基准测试
注意:我们绘制了每个节点的训练/测试准确率,因此是node1,node2,node3。更好的比较将是对参数服务器参数进行评估并使用该值。但是,我们可以看到三个节点之间的准确率相当一致,添加评估器可能会给我们的服务器带来过多的压力。
我们将节点的学习率缩放为学习率/freq (.03)。
我们使用了AWS c4.xlarge实例来比较CPU运行,以及GTX 1060用于GPU运行。
PyTorch的DownpourSGD
图表
这里 2 和 3 是并发发生的。
您可以在这里了解更多关于我们实现的信息。
参考文献
项目详情
关闭
pytorch-distbelief-0.1.0.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 4aeb894824d758181b32539d09ca19af698af7e8ce51e4421ac7fcc970f4f0d9 |
|
MD5 | 0684c0733c179a2d5c2e2eb689dc01be |
|
BLAKE2b-256 | e2ffdabfd30c3cc70c3c6fd51b19fd095aad5eaa13fe55ca08f370f65842443b |
关闭
pytorch_distbelief-0.1.0-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | e478e7ddbe68d014bc4baaca06bcccceca0c4d592f447ada0ca0b52c00834702 |
|
MD5 | edc999b550dd420d807b2cd556eecf78 |
|
BLAKE2b-256 | 0e0c110aa501aa32573bc2f9a485da7c6ca7eba2b4cf1871b2d70e897723d2ff |