十月啦雕旨!離解放也就剩下一個(gè)月啦扮匠!
要熬住,要堅(jiān)持凡涩,要努力棒搜!
今天就簡單記錄一點(diǎn) 數(shù)據(jù)常用在分析預(yù)測中常用的處理方法。
1.歸一化
What?
什么是歸一化:
歸一化方法有兩種形式活箕,一種是把數(shù)變?yōu)椋?力麸,1)之間的小數(shù),一種是把有量綱表達(dá)式變?yōu)闊o量綱表達(dá)式育韩。主要是為了數(shù)據(jù)處理方便提出來的克蚂,把數(shù)據(jù)映射到0~1范圍之內(nèi)處理,更加便捷快速筋讨,應(yīng)該歸到數(shù)字信號(hào)處理范疇之內(nèi)埃叭。How?
常用的方法有Min-Max歸一化即最值歸一化
式子中x為數(shù)據(jù)集中每一種特征的值;
該方法的特點(diǎn):多適用于分布有明顯邊界的情況悉罕;如考試成績赤屋、人的身高、顏色的分布等壁袄,都有范圍类早;而不是些沒有范圍約定,或者范圍非常大的數(shù)據(jù)嗜逻;
(相關(guān)函數(shù):preprocessing.MinMaxScaler())
WHY涩僻?:
使用歸一化的好處:
1.提升模型的收斂速度(即加快梯度下降求最優(yōu)解的速度)
如下圖所示,歸一化后迭代就會(huì)很快
2.提升模型的精度
在涉及到一些距離計(jì)算的算法時(shí)效果顯著栈顷,比如算法要計(jì)算歐氏距離令哟,歸一化可以讓可以讓各個(gè)特征對(duì)結(jié)果做出的貢獻(xiàn)相同,未歸一化就會(huì)造成精度的損失妨蛹。
2.標(biāo)準(zhǔn)化
What?
什么是標(biāo)準(zhǔn)化屏富?
標(biāo)準(zhǔn)化就是將數(shù)據(jù)縮放到以0為中心,標(biāo)準(zhǔn)差為1
(注意:標(biāo)準(zhǔn)化之后,數(shù)據(jù)的范圍并不一定是0-1之間蛙卤,數(shù)據(jù)不一定是標(biāo)準(zhǔn)正態(tài)分布狠半,因?yàn)闃?biāo)準(zhǔn)化之后數(shù)據(jù)的分布并不會(huì)改變噩死,如果數(shù)據(jù)本身是正態(tài)分布,那進(jìn)行標(biāo)準(zhǔn)化之后就是標(biāo)準(zhǔn)正態(tài)分布神年。)
How?
常用的方法有Z-score標(biāo)準(zhǔn)化方法已维。
Z-score標(biāo)準(zhǔn)化方法也稱為均值/方差歸一化(mean normaliztion), 即對(duì)原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)做標(biāo)準(zhǔn)化處理已日。處理后的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布垛耳,即均值為0,標(biāo)準(zhǔn)差為1飘千。轉(zhuǎn)化函數(shù)為:
其中 μ 為所有樣本數(shù)據(jù)的均值堂鲜,σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差
WHY?:
除了和歸一化一樣的優(yōu)點(diǎn)外护奈,標(biāo)準(zhǔn)化可以保證即使原數(shù)據(jù)集中有極端值缔莲,處理后的數(shù)據(jù)集,依然滿足均值為0方差為1霉旗,不會(huì)形成一個(gè)有偏的數(shù)據(jù)
圖片直觀:
機(jī)器學(xué)習(xí)的目標(biāo)無非就是不斷優(yōu)化損失函數(shù)痴奏,使其值最小。在上圖中厌秒,J (w, b) 就是我們要優(yōu)化的目標(biāo)函數(shù)读拆。
標(biāo)準(zhǔn)化后可以更加容易地得出最優(yōu)參數(shù) w 和 b 以及計(jì)算出 J (w, b) 的最小值,從而達(dá)到加速收斂的效果鸵闪。
參考(https://zhuanlan.zhihu.com/p/138563350
https://www.cnblogs.com/pejsidney/p/8031250.html)
3.正則化
What?
什么是正則化檐晕?
簡單來說,正則化是用來引入模型復(fù)雜度的懲罰項(xiàng),防止模型過擬合的方法.
我們在訓(xùn)練模型時(shí)岛马,要最小化損失函數(shù)棉姐,這樣很有可能出現(xiàn)過擬合的問題(參數(shù)過多,模型過于復(fù)雜)啦逆,所以我么在損失函數(shù)后面加上正則化約束項(xiàng)伞矩,轉(zhuǎn)而求約束函數(shù)和正則化項(xiàng)之和的最小值。
圖解:
而正則項(xiàng)是對(duì)現(xiàn)在損失函數(shù)的懲罰項(xiàng),它鼓勵(lì)權(quán)重參數(shù)小一點(diǎn)的值,換句話說,正則項(xiàng)是懲罰的大權(quán)重參數(shù).(其實(shí)就是尋求平衡)因此,如果增大正則系數(shù) 的值,也就增加了正則項(xiàng)的威力,導(dǎo)致權(quán)重參數(shù)變小(趨向于0),從而減小模型對(duì)訓(xùn)練數(shù)據(jù)的依賴.How?
常用的方法有L1夏志、L2正則化方法
正則化以后:新?lián)p失函數(shù)=原始損失函數(shù)+正則項(xiàng)
所以權(quán)重參數(shù)必須在圖中的陰影球中
(圖片搬運(yùn)于:https://zhuanlan.zhihu.com/p/46377151
https://www.cnblogs.com/simpleDi/p/9918306.html)
其他:
ENDing~
十月 好運(yùn) 健康 順利乃坤!沖