數(shù)據(jù)處理之歸一化圣絮、標(biāo)準(zhǔn)化祈惶、正則化

十月啦雕旨!離解放也就剩下一個(gè)月啦扮匠!
要熬住,要堅(jiān)持凡涩,要努力棒搜!


今天就簡單記錄一點(diǎn) 數(shù)據(jù)常用在分析預(yù)測中常用的處理方法。

1.歸一化

What?
什么是歸一化:
歸一化方法有兩種形式活箕,一種是把數(shù)變?yōu)椋?力麸,1)之間的小數(shù),一種是把有量綱表達(dá)式變?yōu)闊o量綱表達(dá)式育韩。主要是為了數(shù)據(jù)處理方便提出來的克蚂,把數(shù)據(jù)映射到0~1范圍之內(nèi)處理,更加便捷快速筋讨,應(yīng)該歸到數(shù)字信號(hào)處理范疇之內(nèi)埃叭。

How?
常用的方法有Min-Max歸一化即最值歸一化


式子中x為數(shù)據(jù)集中每一種特征的值;
該方法的特點(diǎn):多適用于分布有明顯邊界的情況悉罕;如考試成績赤屋、人的身高、顏色的分布等壁袄,都有范圍类早;而不是些沒有范圍約定,或者范圍非常大的數(shù)據(jù)嗜逻;
(相關(guān)函數(shù):preprocessing.MinMaxScaler())
WHY涩僻?
使用歸一化的好處:
1.提升模型的收斂速度(即加快梯度下降求最優(yōu)解的速度)
如下圖所示,歸一化后迭代就會(huì)很快

2.提升模型的精度
在涉及到一些距離計(jì)算的算法時(shí)效果顯著栈顷,比如算法要計(jì)算歐氏距離令哟,歸一化可以讓可以讓各個(gè)特征對(duì)結(jié)果做出的貢獻(xiàn)相同,未歸一化就會(huì)造成精度的損失妨蛹。

2.標(biāo)準(zhǔn)化

What?
什么是標(biāo)準(zhǔn)化屏富?
標(biāo)準(zhǔn)化就是將數(shù)據(jù)縮放到以0為中心,標(biāo)準(zhǔn)差為1
(注意:標(biāo)準(zhǔn)化之后,數(shù)據(jù)的范圍并不一定是0-1之間蛙卤,數(shù)據(jù)不一定是標(biāo)準(zhǔn)正態(tài)分布狠半,因?yàn)闃?biāo)準(zhǔn)化之后數(shù)據(jù)的分布并不會(huì)改變噩死,如果數(shù)據(jù)本身是正態(tài)分布,那進(jìn)行標(biāo)準(zhǔn)化之后就是標(biāo)準(zhǔn)正態(tài)分布神年。)
How?
常用的方法有Z-score標(biāo)準(zhǔn)化方法已维。
Z-score標(biāo)準(zhǔn)化方法也稱為均值/方差歸一化(mean normaliztion), 即對(duì)原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)做標(biāo)準(zhǔn)化處理已日。處理后的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布垛耳,即均值為0,標(biāo)準(zhǔn)差為1飘千。轉(zhuǎn)化函數(shù)為:


其中 μ 為所有樣本數(shù)據(jù)的均值堂鲜,σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差
WHY?
除了和歸一化一樣的優(yōu)點(diǎn)外护奈,標(biāo)準(zhǔn)化可以保證即使原數(shù)據(jù)集中有極端值缔莲,處理后的數(shù)據(jù)集,依然滿足均值為0方差為1霉旗,不會(huì)形成一個(gè)有偏的數(shù)據(jù)
圖片直觀:

機(jī)器學(xué)習(xí)的目標(biāo)無非就是不斷優(yōu)化損失函數(shù)痴奏,使其值最小。在上圖中厌秒,J (w, b) 就是我們要優(yōu)化的目標(biāo)函數(shù)读拆。
標(biāo)準(zhǔn)化后可以更加容易地得出最優(yōu)參數(shù) w 和 b 以及計(jì)算出 J (w, b) 的最小值,從而達(dá)到加速收斂的效果鸵闪。
參考(https://zhuanlan.zhihu.com/p/138563350
https://www.cnblogs.com/pejsidney/p/8031250.html

3.正則化

What?
什么是正則化檐晕?
簡單來說,正則化是用來引入模型復(fù)雜度的懲罰項(xiàng),防止模型過擬合的方法.
我們在訓(xùn)練模型時(shí)岛马,要最小化損失函數(shù)棉姐,這樣很有可能出現(xiàn)過擬合的問題(參數(shù)過多,模型過于復(fù)雜)啦逆,所以我么在損失函數(shù)后面加上正則化約束項(xiàng)伞矩,轉(zhuǎn)而求約束函數(shù)和正則化項(xiàng)之和的最小值。


圖解:

而正則項(xiàng)是對(duì)現(xiàn)在損失函數(shù)的懲罰項(xiàng),它鼓勵(lì)權(quán)重參數(shù)小一點(diǎn)的值,換句話說,正則項(xiàng)是懲罰的大權(quán)重參數(shù).(其實(shí)就是尋求平衡)因此,如果增大正則系數(shù) 的值,也就增加了正則項(xiàng)的威力,導(dǎo)致權(quán)重參數(shù)變小(趨向于0),從而減小模型對(duì)訓(xùn)練數(shù)據(jù)的依賴.

How?
常用的方法有L1夏志、L2正則化方法


正則化以后:新?lián)p失函數(shù)=原始損失函數(shù)+正則項(xiàng)
所以權(quán)重參數(shù)必須在圖中的陰影球中
(圖片搬運(yùn)于:https://zhuanlan.zhihu.com/p/46377151
https://www.cnblogs.com/simpleDi/p/9918306.html
其他:


ENDing~
十月 好運(yùn) 健康 順利乃坤!沖

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市沟蔑,隨后出現(xiàn)的幾起案子湿诊,更是在濱河造成了極大的恐慌,老刑警劉巖瘦材,帶你破解...
    沈念sama閱讀 206,378評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件厅须,死亡現(xiàn)場離奇詭異,居然都是意外死亡食棕,警方通過查閱死者的電腦和手機(jī)朗和,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門错沽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人眶拉,你說我怎么就攤上這事千埃。” “怎么了忆植?”我有些...
    開封第一講書人閱讀 152,702評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵放可,是天一觀的道長。 經(jīng)常有香客問我朝刊,道長耀里,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,259評(píng)論 1 279
  • 正文 為了忘掉前任坞古,我火速辦了婚禮备韧,結(jié)果婚禮上劫樟,老公的妹妹穿的比我還像新娘痪枫。我一直安慰自己,他們只是感情好叠艳,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評(píng)論 5 371
  • 文/花漫 我一把揭開白布奶陈。 她就那樣靜靜地躺著,像睡著了一般附较。 火紅的嫁衣襯著肌膚如雪吃粒。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,036評(píng)論 1 285
  • 那天拒课,我揣著相機(jī)與錄音徐勃,去河邊找鬼。 笑死早像,一個(gè)胖子當(dāng)著我的面吹牛僻肖,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播卢鹦,決...
    沈念sama閱讀 38,349評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼臀脏,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了冀自?” 一聲冷哼從身側(cè)響起揉稚,我...
    開封第一講書人閱讀 36,979評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎熬粗,沒想到半個(gè)月后搀玖,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,469評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡驻呐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評(píng)論 2 323
  • 正文 我和宋清朗相戀三年灌诅,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了葛超。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,059評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡延塑,死狀恐怖绣张,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情关带,我是刑警寧澤侥涵,帶...
    沈念sama閱讀 33,703評(píng)論 4 323
  • 正文 年R本政府宣布,位于F島的核電站宋雏,受9級(jí)特大地震影響芜飘,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜磨总,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評(píng)論 3 307
  • 文/蒙蒙 一嗦明、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蚪燕,春花似錦娶牌、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至鲁驶,卻和暖如春鉴裹,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背钥弯。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來泰國打工径荔, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人脆霎。 一個(gè)月前我還...
    沈念sama閱讀 45,501評(píng)論 2 354
  • 正文 我出身青樓总处,卻偏偏與公主長得像,于是被迫代替她去往敵國和親绪穆。 傳聞我的和親對(duì)象是個(gè)殘疾皇子辨泳,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容