PCA填坑篇——使用PCA到底需不需要數(shù)據(jù)去量綱狭瞎?

一:為什么要去量綱

表征相同屬性(單位不同)的各特征之間才有可比性,如1cm?與 0.1kg?你怎么比搏予?

二:什么是去量綱

量綱:衡量一個屬性的單位熊锭,比如:米,千克等;

去量綱:去除該屬性單位帶來的影響碗殷,使得該屬性成為一個單純的數(shù)精绎,或者使得所有的屬性的單位變?yōu)椤?”⌒科蓿總之就是統(tǒng)一單位的過程

三:使用PCA到底需不需要去量綱呢代乃?

我們先看看PCA的原理

PCA有個規(guī)則就是:使得新數(shù)據(jù)集中各屬性之間沒有相關性。

(1)當:各個屬性單位相同時(比如仿粹,都是kg襟己,都是米)這時候,各個屬性是可比較的牍陌。因此直接求屬性與屬性之間的協(xié)方差即可擎浴。原本協(xié)方差的大小并不說明相關程度(協(xié)方差只表示正相關還是負相關),但是在單位相同時候毒涧,我們可以認為協(xié)方差越大贮预,相關性越大。

(2)當:各個屬性單位不同時契讲,(比如仿吞,一個是kg,一個是米)這個時候捡偏,由于單位不同唤冈,協(xié)方差不表示相關程度,這時候银伟,我們就要使用相關系數(shù)來進行描述你虹。

相關系數(shù)的公式:\rho =\frac{Cov(X,Y)}{\sigma _x \sigma _y}(其中除以標準差就是一種去量綱的方式)

因此:相關系數(shù)也可以看成協(xié)方差:一種剔除了兩個變量量綱影響標準化后的特殊協(xié)方差彤避,它消除了兩個變量變化幅度的影響傅物,而只是單純反應兩個變量每單位變化時的相似程度


寫到這里琉预,相信大家已經(jīng)明白了董饰,使用PCA到底需不需要去量綱了~。

四:去量綱方法

參考博客:https://blog.csdn.net/OnTheWayGoGoing/article/details/79871559

一共有三種常用的去量綱的方法:

(1)min-max歸一化(2)z-score標準化(3)Normalization

這里我不想搬運了圆米,大家自己去看看鏈接的內容即可卒暂。這里我主要解釋一下這一句話:

這句話的意思是,如果我認為原始數(shù)據(jù)中娄帖,某一個屬性標準差越大也祠,表示這個屬性變化大,那么這個屬性就越重要块茁。

這句話很繞啊齿坷,乍一看.....這不就是說的協(xié)方差矩陣的對角線么桂肌?協(xié)方差矩陣對角線上的元素就是方差(標準差的平方)。再乍一看......PCA不就是通過方差的大小判斷是不是主要成分么永淌?那是不是意味著崎场,在PCA中去量綱應該使用min-max歸一化?

答案是~~~NO遂蛀。在PCA中去量綱谭跨,我們還是應該使用z-score標準化,其實在我上面這句話中李滴,給埋了一個坑

”PCA是通過方差大小判斷是不是主成分“這句話沒錯螃宙,但是他是根據(jù)變換后的新數(shù)據(jù)集方差大小判斷的,而我們去量綱時候所坯,處理的是原數(shù)據(jù)集谆扎,而且忘了相關系數(shù)了么~~使用min-max去量綱后,計算的屬性與屬性之間的協(xié)方差芹助,是沒有數(shù)學意義可以說明能表示相關性大小的喔(至少我沒找到)堂湖。

五:總結

當數(shù)據(jù)各個屬性的單位不同時候,使用PCA是需要去量綱的状土,而且去量綱的方法應該選用z-score標準化(減去均值之后除以方差)无蜂。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市蒙谓,隨后出現(xiàn)的幾起案子斥季,更是在濱河造成了極大的恐慌,老刑警劉巖累驮,帶你破解...
    沈念sama閱讀 212,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件酣倾,死亡現(xiàn)場離奇詭異,居然都是意外死亡慰照,警方通過查閱死者的電腦和手機灶挟,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來毒租,“玉大人惭缰,你說我怎么就攤上這事舰绘。” “怎么了意鲸?”我有些...
    開封第一講書人閱讀 158,369評論 0 348
  • 文/不壞的土叔 我叫張陵耕漱,是天一觀的道長算色。 經(jīng)常有香客問我,道長螟够,這世上最難降的妖魔是什么灾梦? 我笑而不...
    開封第一講書人閱讀 56,799評論 1 285
  • 正文 為了忘掉前任峡钓,我火速辦了婚禮,結果婚禮上若河,老公的妹妹穿的比我還像新娘能岩。我一直安慰自己,他們只是感情好萧福,可當我...
    茶點故事閱讀 65,910評論 6 386
  • 文/花漫 我一把揭開白布拉鹃。 她就那樣靜靜地躺著,像睡著了一般鲫忍。 火紅的嫁衣襯著肌膚如雪膏燕。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,096評論 1 291
  • 那天悟民,我揣著相機與錄音坝辫,去河邊找鬼。 笑死射亏,一個胖子當著我的面吹牛阀溶,可吹牛的內容都是我干的。 我是一名探鬼主播鸦泳,決...
    沈念sama閱讀 39,159評論 3 411
  • 文/蒼蘭香墨 我猛地睜開眼银锻,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了做鹰?” 一聲冷哼從身側響起击纬,我...
    開封第一講書人閱讀 37,917評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎钾麸,沒想到半個月后更振,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,360評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡饭尝,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,673評論 2 327
  • 正文 我和宋清朗相戀三年肯腕,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片钥平。...
    茶點故事閱讀 38,814評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡实撒,死狀恐怖,靈堂內的尸體忽然破棺而出涉瘾,到底是詐尸還是另有隱情知态,我是刑警寧澤,帶...
    沈念sama閱讀 34,509評論 4 334
  • 正文 年R本政府宣布立叛,位于F島的核電站负敏,受9級特大地震影響,放射性物質發(fā)生泄漏秘蛇。R本人自食惡果不足惜其做,卻給世界環(huán)境...
    茶點故事閱讀 40,156評論 3 317
  • 文/蒙蒙 一顶考、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧妖泄,春花似錦驹沿、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至审残,卻和暖如春梭域,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背搅轿。 一陣腳步聲響...
    開封第一講書人閱讀 32,123評論 1 267
  • 我被黑心中介騙來泰國打工病涨, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人璧坟。 一個月前我還...
    沈念sama閱讀 46,641評論 2 362
  • 正文 我出身青樓既穆,卻偏偏與公主長得像,于是被迫代替她去往敵國和親雀鹃。 傳聞我的和親對象是個殘疾皇子幻工,可洞房花燭夜當晚...
    茶點故事閱讀 43,728評論 2 351

推薦閱讀更多精彩內容