在多項特征中倚喂,有可能遇到x1的范圍在1~10每篷,而x2的范圍在5000~100000,此時由于x1與x2的范圍相差太大端圈,會減慢代價函數(shù)的梯度下降求極小值焦读,所以我們要對特征進行縮放(Feature Scaling),使他們的值都落在某一區(qū)間內(nèi)舱权,通常的縮放如下:
平均歸一化
此處μi代表了第i個特征值的全部值取平均矗晃,si代表了該特征值可能出現(xiàn)的區(qū)間寬度(最大值減去最小值),通過縮放宴倍,我們僅需通過操控α的值就能較快目的求值
在梯度下降時张症,針對每個參數(shù)θj,我們都是通過下圖這個方式不斷賦值去找最佳的值
不斷逼近找最佳
理想情況應(yīng)該是這樣:
隨著步數(shù)增加不斷降低
有可能出現(xiàn)的不應(yīng)該出現(xiàn)的情況:
橫軸為步數(shù)
這種很容易理解鸵贬,就是α過大了俗他,情況變成了講義中的這樣:
越走越上了
講義中還有另一種:
不斷上下波動
自己理解了一下,應(yīng)該是出現(xiàn)了這種情況:
特殊情況
原因在于上面的偏導(dǎo)數(shù)突然變小阔逼,縱然α比較大兆衅,但是減去的甚至沒有原來的多,所以掉下來了,如果情況足夠特殊會掉到一開始出發(fā)的點羡亩,所以不斷上下波動重復(fù)了摩疑,同樣減小α的值就能解決
之前假設(shè)的都是線性函數(shù),如果是非線性的函數(shù)時夕春,最好進行特征縮放