一:為什么要去量綱
表征相同屬性(單位不同)的各特征之間才有可比性,如1cm?與 0.1kg?你怎么比搏予?
二:什么是去量綱
量綱:衡量一個屬性的單位熊锭,比如:米,千克等;
去量綱:去除該屬性單位帶來的影響碗殷,使得該屬性成為一個單純的數(shù)精绎,或者使得所有的屬性的單位變?yōu)椤?”⌒科蓿總之就是統(tǒng)一單位的過程
三:使用PCA到底需不需要去量綱呢代乃?
我們先看看PCA的原理
PCA有個規(guī)則就是:使得新數(shù)據(jù)集中各屬性之間沒有相關性。
(1)當:各個屬性單位相同時(比如仿粹,都是kg襟己,都是米)這時候,各個屬性是可比較的牍陌。因此直接求屬性與屬性之間的協(xié)方差即可擎浴。原本協(xié)方差的大小并不說明相關程度(協(xié)方差只表示正相關還是負相關),但是在單位相同時候毒涧,我們可以認為協(xié)方差越大贮预,相關性越大。
(2)當:各個屬性單位不同時契讲,(比如仿吞,一個是kg,一個是米)這個時候捡偏,由于單位不同唤冈,協(xié)方差不表示相關程度,這時候银伟,我們就要使用相關系數(shù)來進行描述你虹。
相關系數(shù)的公式:(其中除以標準差就是一種去量綱的方式)
因此:相關系數(shù)也可以看成協(xié)方差:一種剔除了兩個變量量綱影響、標準化后的特殊協(xié)方差彤避,它消除了兩個變量變化幅度的影響傅物,而只是單純反應兩個變量每單位變化時的相似程度。
寫到這里琉预,相信大家已經(jīng)明白了董饰,使用PCA到底需不需要去量綱了~。
四:去量綱方法
參考博客:https://blog.csdn.net/OnTheWayGoGoing/article/details/79871559
一共有三種常用的去量綱的方法:
(1)min-max歸一化(2)z-score標準化(3)Normalization
這里我不想搬運了圆米,大家自己去看看鏈接的內容即可卒暂。這里我主要解釋一下這一句話:
這句話的意思是,如果我認為原始數(shù)據(jù)中娄帖,某一個屬性標準差越大也祠,表示這個屬性變化大,那么這個屬性就越重要块茁。
這句話很繞啊齿坷,乍一看.....這不就是說的協(xié)方差矩陣的對角線么桂肌?協(xié)方差矩陣對角線上的元素就是方差(標準差的平方)。再乍一看......PCA不就是通過方差的大小判斷是不是主要成分么永淌?那是不是意味著崎场,在PCA中去量綱應該使用min-max歸一化?
答案是~~~NO遂蛀。在PCA中去量綱谭跨,我們還是應該使用z-score標準化,其實在我上面這句話中李滴,給埋了一個坑
”PCA是通過方差大小判斷是不是主成分“這句話沒錯螃宙,但是他是根據(jù)變換后的新數(shù)據(jù)集方差大小判斷的,而我們去量綱時候所坯,處理的是原數(shù)據(jù)集谆扎,而且忘了相關系數(shù)了么~~使用min-max去量綱后,計算的屬性與屬性之間的協(xié)方差芹助,是沒有數(shù)學意義可以說明能表示相關性大小的喔(至少我沒找到)堂湖。
五:總結
當數(shù)據(jù)各個屬性的單位不同時候,使用PCA是需要去量綱的状土,而且去量綱的方法應該選用z-score標準化(減去均值之后除以方差)无蜂。