9
1
1789
0
論文提出背景 深層網(wǎng)絡(luò)的訓(xùn)練問(wèn)題: 1)梯度消失/梯度爆炸,阻礙模型進(jìn)一步收斂 (可以用已有的batch normalization 和 SGD...