機(jī)器學(xué)習(xí)之?dāng)?shù)據(jù)歸一化方法(離差標(biāo)準(zhǔn)化唉侄、線性變換)

機(jī)器學(xué)習(xí)中使用的數(shù)據(jù)為啥要?dú)w一化?

不同評(píng)價(jià)指標(biāo)之間會(huì)使用不同的量綱野建。
比如属划,評(píng)價(jià)房?jī)r(jià)的量綱一般有面積、樓層等候生;預(yù)測(cè)患病率來的量綱有:身高同眯、體重、家族遺傳病史等唯鸭;
以房?jī)r(jià)來說须蜗,北京和十八線小縣城的房?jī)r(jià)雖然都有面積樓層等,但肯定沒法直接比較,因?yàn)楸本┑拿科矫谆?位數(shù)起步明肮,但十八線小縣城大概率只有4位數(shù)菱农;
落差較大勢(shì)必會(huì)影響數(shù)據(jù)分析的結(jié)論,一堆十八線城市的數(shù)據(jù)中混入一個(gè)北京市的數(shù)據(jù)會(huì)對(duì)結(jié)論產(chǎn)生很大影響柿估。
為了消除指標(biāo)之間量綱的影響循未,需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,以解決數(shù)據(jù)指標(biāo)之間的可比性秫舌;原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化處理后只厘,各指標(biāo)處于同一數(shù)量級(jí),適合進(jìn)行綜合對(duì)比評(píng)價(jià)舅巷。

先來看一張數(shù)據(jù)分析圖:


image.png

從左至右來看:

  • 第1個(gè)模型是一個(gè)線性模型,擬合度很低河咽,也稱作 欠擬合钠右;
  • 第3個(gè)模型是一個(gè)高次方的模型,雖然很好的適應(yīng)了我們的訓(xùn)練數(shù)據(jù)集忘蟹,但對(duì)新輸入變量進(jìn)行預(yù)測(cè)的時(shí)候飒房,效果可能會(huì)很差,也稱作 過度擬合媚值;
  • 第2個(gè)模型則是剛剛適合我們數(shù)據(jù)的模型狠毯。
如果發(fā)現(xiàn)過度擬合的情況,該如何處理呢褥芒?
  • 1嚼松、人工篩選:
    丟棄一些不能幫助我們正確預(yù)測(cè)的特征;
  • 2锰扶、歸一化處理:
    保留所有特征献酗,減少參數(shù)間的大小或重要性落差,以使得不同維度之間的特征在數(shù)值上有一定可比性坷牛;

當(dāng)然還可以使用某類算法對(duì)數(shù)據(jù)預(yù)處理罕偎,本文不做詳細(xì)討論。

兩種常用的歸一化方法:

1京闰、min-max標(biāo)準(zhǔn)化(Min-Max Normalization)也稱 線性函數(shù)歸一化
定義: 也稱為離差標(biāo)準(zhǔn)化颜及,是對(duì)原始數(shù)據(jù)的線性變換,使得結(jié)果映射到0-1之間蹂楣。
本質(zhì): 把數(shù)變?yōu)椤?,1】之間的小數(shù)俏站。
轉(zhuǎn)換函數(shù):(x-min/(max-min)
如果想要將數(shù)據(jù)映射到-1,1,則將公式換成: (X-Mean) / (Max-Min)
其中: max為樣本數(shù)據(jù)的最大值捐迫,min為樣本數(shù)據(jù)的最小值乾翔,Mean表示數(shù)據(jù)的均值。
缺陷: 當(dāng)有新數(shù)據(jù)加入時(shí),可導(dǎo)致max和min的變化反浓,需要重新定義萌丈。

2、0均值標(biāo)準(zhǔn)化(Z-score standardization)
定義: 這種方法給與原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化雷则。經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布辆雾,即均值為0,標(biāo)準(zhǔn)差為1月劈;
本質(zhì): 把有量綱表達(dá)式變成無量綱表達(dá)式度迂。
轉(zhuǎn)換函數(shù): (X-Mean)/(Standard-Deviation)
其中,Mean為所有樣本數(shù)據(jù)的均值猜揪。Standard Deviation為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差惭墓。

兩種歸一化方法的使用場(chǎng)景:

方法【1】的典型應(yīng)用:圖像處理;

在不涉及距離度量而姐、協(xié)方差計(jì)算腊凶、數(shù)據(jù)不符合正太分布的時(shí)候,可以使用第一種方法或其他歸一化方法拴念;
比如圖像處理中钧萍,將RGB圖像轉(zhuǎn)換為灰度圖像后將其值限定在(0 ,255)的范圍政鼠,通常有最大值法风瘦、最小值法、均值法等公般;
其歸一化原理就是分別將RGB三種顏色中的最大值万搔、最小值、平均值等重新賦值給當(dāng)前像素點(diǎn)官帘;可參考圖像二值化的原理來簡(jiǎn)單理解蟹略。

圖像二值化時(shí)的閾值選取方法常見由如下幾種:

  1. 雙峰法。
  2. P參數(shù)法遏佣。
  3. 最大類間方差法(Otsu挖炬、大津法)。
  4. 最大熵閾值法状婶。
  5. 迭代法(最佳閾值法)意敛。

這里選取第一種雙峰法簡(jiǎn)單介紹一下(其實(shí)吧村長(zhǎng)也只懂最簡(jiǎn)單的ε=(′ο`*)))誒),參見下圖:
可選取 Zt 谷底處的值作為二值化的閾值膛虫,大于此閾值草姻,全部改為 255;小于等于就全改為 0稍刀。


image.png

這里只需知曉原理即可撩独,很多編程語言敞曹,如 Python 中,已有現(xiàn)成的圖像二值化類庫综膀,可選擇任意一種方法進(jìn)行二值化澳迫。
注:該方法不適用于單峰圖、雙峰落差很大剧劝、谷底較長(zhǎng)(比如與峰值長(zhǎng)度相當(dāng))且平坦的情況橄登,最好是個(gè)凹字形。

方法【2】的典型應(yīng)用:分類讥此、聚類算法拢锹;

在分類、聚類算法中萄喳,當(dāng)需要使用距離來度量相似性的時(shí)候卒稳,第二種方法(Z-score standardization)表現(xiàn)更好。
因?yàn)榈谝环N方法(線性變換后)他巨,其協(xié)方差產(chǎn)生了倍數(shù)值的縮放展哭,因此這種方式無法消除量綱對(duì)方差、協(xié)方差的影響闻蛀;
同時(shí),由于量綱的存在您市,使用不同的量綱觉痛、距離的計(jì)算結(jié)果會(huì)不同。
而第二種歸一化方式中茵休,新的數(shù)據(jù)由于對(duì)方差進(jìn)行了歸一化薪棒,這時(shí)候每個(gè)維度的量綱其實(shí)已經(jīng)等價(jià)了,每個(gè)維度都服從均值為0榕莺、方差1的正態(tài)分布俐芯;
在計(jì)算距離的時(shí)候,每個(gè)維度都是去量綱化的钉鸯,避免了不同量綱的選取對(duì)距離計(jì)算產(chǎn)生的巨大影響吧史。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市唠雕,隨后出現(xiàn)的幾起案子贸营,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,000評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異叙量,居然都是意外死亡并徘,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,745評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門枫攀,熙熙樓的掌柜王于貴愁眉苦臉地迎上來掰茶,“玉大人顷链,你說我怎么就攤上這事阎毅》俑眨” “怎么了?”我有些...
    開封第一講書人閱讀 168,561評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵净薛,是天一觀的道長(zhǎng)汪榔。 經(jīng)常有香客問我,道長(zhǎng)肃拜,這世上最難降的妖魔是什么痴腌? 我笑而不...
    開封第一講書人閱讀 59,782評(píng)論 1 298
  • 正文 為了忘掉前任,我火速辦了婚禮燃领,結(jié)果婚禮上士聪,老公的妹妹穿的比我還像新娘。我一直安慰自己猛蔽,他們只是感情好剥悟,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,798評(píng)論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著曼库,像睡著了一般区岗。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上毁枯,一...
    開封第一講書人閱讀 52,394評(píng)論 1 310
  • 那天慈缔,我揣著相機(jī)與錄音,去河邊找鬼种玛。 笑死藐鹤,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的赂韵。 我是一名探鬼主播娱节,決...
    沈念sama閱讀 40,952評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼祭示!你這毒婦竟也來了肄满?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,852評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤质涛,失蹤者是張志新(化名)和其女友劉穎悄窃,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蹂窖,經(jīng)...
    沈念sama閱讀 46,409評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡轧抗,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,483評(píng)論 3 341
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了瞬测。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片横媚。...
    茶點(diǎn)故事閱讀 40,615評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡纠炮,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出灯蝴,到底是詐尸還是另有隱情恢口,我是刑警寧澤,帶...
    沈念sama閱讀 36,303評(píng)論 5 350
  • 正文 年R本政府宣布穷躁,位于F島的核電站耕肩,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏问潭。R本人自食惡果不足惜猿诸,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,979評(píng)論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望狡忙。 院中可真熱鬧梳虽,春花似錦、人聲如沸灾茁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,470評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽北专。三九已至禀挫,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間拓颓,已是汗流浹背语婴。 一陣腳步聲響...
    開封第一講書人閱讀 33,571評(píng)論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留录粱,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,041評(píng)論 3 377
  • 正文 我出身青樓画拾,卻偏偏與公主長(zhǎng)得像啥繁,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子青抛,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,630評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容