Tips 1: 特征縮放
在訓(xùn)練的樣本中會容易出現(xiàn)數(shù)據(jù)相差很大的情況揭璃,這就會造成訓(xùn)練過程中需要經(jīng)歷很長的迭代才能找到最優(yōu)參數(shù),情況如下圖所示攘滩,兩種不同的數(shù)據(jù)狞山,找到最優(yōu)參數(shù)的路徑不同。
第二種方法就是采用了特征縮小的方法绩郎,這樣就減少了迭代次數(shù)潘鲫,我們可以采用歸一化的方法來使對我們的特征進(jìn)行縮放
Tips 2:學(xué)習(xí)率a的選擇
學(xué)習(xí)率a是梯度下降算法的重要參數(shù)。如果選擇過小肋杖,會使迭代次數(shù)過多溉仑,造成不必要的計(jì)算;如果選擇過大兽愤,則會出現(xiàn)無法收斂的情況彼念。
在選擇適當(dāng)?shù)膶W(xué)習(xí)率的情況下,隨著迭代次數(shù)的增加浅萧,代價(jià)函數(shù)應(yīng)該是一個(gè)減函數(shù)逐沙,逐漸趨向于平滑。
當(dāng)選定了一個(gè)a之后洼畅,我們可以利用自動收斂測試:
然而吩案,0.001這個(gè)閾值的選擇在實(shí)際過程中是很難選擇的,因此帝簇,我們最好還是依靠圖像來判斷徘郭。
吳教授對a選定習(xí)慣: