1. Abstract
- 新的訓(xùn)練DNN的方法
- 保證理論正確的收斂性后德,實(shí)踐中擴(kuò)展性很好
- 收斂性證明有:layerwise convergence和convergence of weights in probability
2. Introduction
2.1. DNN存在的問題
- 目標(biāo)函數(shù)通常是非凸的役电。需要合并所有層的權(quán)重為一個大的參數(shù)格了,然后使用SGD,很少有從layerwise的角度分析
- DNN訓(xùn)練很慢挤巡,現(xiàn)在的啟發(fā)式并行方法缺少收斂性的理論證明
2.2 Main contribution
- 將BP算法對DNN的分析擴(kuò)展到layerwise剩彬,new insights 例如layerwise contraction
- build了一個擴(kuò)展性好的分布式深度學(xué)習(xí)方法
- 提供在分布式SSP模式下DNN的收斂性證明
3. Related work
3.1. BP的收斂性
- Backpropagation convergence via deterministic nonmonotone perturbed minimization. 分析了BP的收斂性,證明了在隨機(jī)假設(shè)下矿卑,BP產(chǎn)生的權(quán)重diverge或者converge到一個穩(wěn)定點(diǎn)
- Converegnce properties of backpropagation for neural nets via theory of stchastic gradient methods. 與上面類似喉恋,但是是隨機(jī)梯度BP。這兩者都沒有提高layerwise的分析
- Some asymptotic results for learning in single hidden-layer feedforward network models. 提供了layerwise的分析母廷,但是將多層參數(shù)合并成一個隱藏層
3.2. Scale DNN
- A provably e?cient algorithm for training deep networks. 提出了一種有效的算法來建立和訓(xùn)練有監(jiān)督的深度網(wǎng)絡(luò)轻黑,有理論證明
- Building high-level features using large scale unsupervised learning. 模型并行DNN,DNN的每層被切分到不同的機(jī)器琴昆,L-BFGS的分布式實(shí)現(xiàn)氓鄙,但是沒有理論證明
- 使用GPU加速:Large-scale deep unsupervised learning using graphics processors.
- 使用GPU+CPU:Large-scale deep learning at baidu.
3.3. 缺點(diǎn)
- 局限在一些領(lǐng)域
- 理論分析restricted to small setting: limited analysis, 非分布式, 不可擴(kuò)展, 沒有比較不同的分布式方法
4. Background
4.1. SSP
選擇SSP的原因:
- SSP是工業(yè)級的semi-synchronous(半同步)分布式學(xué)習(xí)框架,同時有理論保證
- 在系統(tǒng)性能和準(zhǔn)確性之間取得了平衡
5. Problem formulation
- 殘差的鏈?zhǔn)揭?guī)則业舍,chain rule
- 每個機(jī)器保存所有參數(shù)抖拦,數(shù)據(jù)平均切分升酣,每個機(jī)器獨(dú)立訓(xùn)練,同時滿足SSP條件
缺點(diǎn)
- SSP based DNN的缺點(diǎn)是只能數(shù)據(jù)并行
- 沒有模型并行