7.3 參數(shù)初始化
-
預(yù)訓(xùn)練初始化
一個(gè)已經(jīng)在大規(guī)模數(shù)據(jù)上訓(xùn)練過的模型可以提供一個(gè)好的參數(shù)初始值 -
隨機(jī)初始化
對(duì)稱權(quán)重現(xiàn)象:logistic回歸和感知器中一般將參數(shù)全部初始化為0,神經(jīng)網(wǎng)絡(luò)訓(xùn)練中如果參數(shù)都為0扯躺,在第一遍前向計(jì)算時(shí)冲茸,隱藏層神經(jīng)元的激活值都相同屯阀、權(quán)重更新也相同,導(dǎo)致沒有區(qū)分性轴术。
為打破上述現(xiàn)象难衰,較好的方式為對(duì)每個(gè)參數(shù)隨機(jī)初始化 - 固定初始化
7.3.1 基于固定方差的參數(shù)初始化
- 高斯分布初始化
- 均勻分布初始化
7.3.3 基于方差縮放初始化
7.3.2.1 Xavier初始化
7.3.2.2 He初始化
7.3.2.3 正交初始化
為避免梯度消失或梯度爆炸問題,希望誤差項(xiàng)在反向傳播的中具有范數(shù)保持性,即逗栽,如果以均值為0盖袭,方差為的高斯分布來初始化權(quán)重矩陣,當(dāng)M趨于無窮時(shí)彼宠,范數(shù)保持性成立鳄虱。
正交初始化實(shí)現(xiàn)過程可分為:
1)用均值為0、方差為1的高斯分布初始化一個(gè)矩陣
2)將這個(gè)矩陣用奇異值分解得到兩個(gè)正交矩陣凭峡,并使用其中一個(gè)作為權(quán)重矩陣
7.4 數(shù)據(jù)預(yù)處理
神經(jīng)網(wǎng)絡(luò)中常使用的歸一化方法
- 最小最大值歸一化
通過縮放將每一個(gè)特征的取值范圍歸一到[0,1]或[-1,1]之間拙已。假設(shè)有N個(gè)樣本,對(duì)于一維特征,歸一化的特征為摧冀,其中min(x)和max(x)分別是特征在所有樣本上的最小倍踪、最大值。 - 標(biāo)準(zhǔn)化
將每一維特征都調(diào)整為均值為0索昂,方差為1建车。得到新的特征值,其中分別為每一維特征的均值和標(biāo)準(zhǔn)差缤至。不能為0,如果標(biāo)準(zhǔn)差為0康谆,說明這一維度特征沒區(qū)分性领斥,可以直接刪掉你 - 白化
一種預(yù)處理方法,用來降低數(shù)據(jù)特征之間的冗余性沃暗。一個(gè)主要的實(shí)現(xiàn)方式為PCA 月洛。