神經(jīng)元越多换怖,表達(dá)模型越好
為了防止過擬合,增大regularzation
relu max(0, x)
leaky relu
maxout max(w1Tx+b1, w2Tx+b2)
ELU
image.png
vanish gradient problem
learning rate過大 會導(dǎo)致很多neuron掛掉
dead neuron-> leaky relu
relu 權(quán)值初始化
/2是因為假設(shè)高斯分布,max
image.png
batch normalization的好處 可以適應(yīng)各種不同初始狀態(tài)下的權(quán)值撒妈,在某個學(xué)習(xí)率下收斂更快
log(1/10) = 2.3 10 classes(sanity check, gradient check)
image.png
image.png