首页 > 其他 > 详细

【论文学习8】TernGrad: Ternary Gradients to Reduce Communication in Distributed Deep Learning

时间:2020-03-23 13:37:30      阅读:92      评论:0      收藏:0      [点我收藏+]

演讲摘要(即论文摘要)

技术分享图片
作者视频讲解:https://www.youtube.com/watch?v=WWWQXTb_69c&feature=youtu.be&t=20s

摘要

分布式训练的瓶颈为同步梯度和参数的高网络通信成本。在论文中,我们提出了三元梯度来加速分布式学习。只需要一个三元数组{-1,0,1}就可以减少通信时间。在梯度有界的前提下,我们数学证明了TerGrad的收敛性。在边界指导下,我们提出了分层的三元化和梯度裁剪来提高收敛性。实验证明可以提升准确性。

1.introdution

训练大规模模型的数据经常采用分布式系统。SGD通常作为优化算法,由于其高计算效率。

同步SGD:
技术分享图片

缺点:延长通信时间

异步SGD:
技术分享图片

缺点:降低模型精度

目前加速分布式训练最常使用的是稀疏性量化技术

源码链接://download.csdn.net/download/weixin_45428522/12264387
PPT链接://download.csdn.net/download/weixin_45428522/12264378

【论文学习8】TernGrad: Ternary Gradients to Reduce Communication in Distributed Deep Learning

原文:https://www.cnblogs.com/20189223cjt/p/12551296.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!