Chapter 12 Priciple Component Analysis
本篇是第十二章握联,內(nèi)容是主成分分析桦沉。
這篇博客的完整內(nèi)容包含各類數(shù)學(xué)表達(dá)〗鹈觯可以見(jiàn)我CSDN和hexo搭的個(gè)人博客纯露。
CSDN博客
1 主成分分析基本思想
依舊從問(wèn)題開(kāi)始本篇的介紹。地理學(xué)和生態(tài)學(xué)研究里經(jīng)常遇到的問(wèn)題就是代芜,影響變量非常之多埠褪,而且地球表層地理生態(tài)環(huán)境現(xiàn)象無(wú)法使用控制變量的方式進(jìn)行實(shí)驗(yàn)。同時(shí)影響變量非常多挤庇,經(jīng)常出現(xiàn)變量冗余钞速、冗雜的現(xiàn)象,同時(shí)多元分布數(shù)據(jù)本身對(duì)人類的認(rèn)知就是一種挑戰(zhàn)嫡秕。這里舉個(gè)栗子:比如在研究城市經(jīng)濟(jì)發(fā)展的時(shí)候玉工,我們會(huì)考慮到的因素會(huì)包括第一產(chǎn)業(yè)、第二產(chǎn)業(yè)淘菩、第三產(chǎn)業(yè)占比遵班,城市人口屠升,城市地理位置,城市氣候適宜度狭郑,政策扶持等等很多因子腹暖,但是這里有很多因子存在共線性的情況,也就是變量冗余冗雜翰萨。用矛盾論的話說(shuō)脏答,要抓住主要矛盾,那么如何在多元分布數(shù)據(jù)中分離出主要的因子亩鬼,這就是本篇的主角主成分分析(Priciple Component Analysis殖告,PCA)。
所以它的基本思想是雳锋。
在社會(huì)經(jīng)濟(jì)的研究中黄绩,為了全面系統(tǒng)的分析和研究問(wèn)題,必須考慮許多經(jīng)濟(jì)指標(biāo)玷过,這些指標(biāo)能從不同的側(cè)面反映我們所研究的對(duì)象的特征爽丹,但在某種程度上存在信息的重疊,具有一定的相關(guān)性辛蚊。這種信息的重疊有時(shí)甚至?xí)⑹挛锏恼嬲卣髋c內(nèi)在規(guī)律粤蝎。
主成分分析是利用降維的思想, 在力求數(shù)據(jù)信息丟失最少的原則下袋马,對(duì)高維的變量空間降維初澎,即在眾多變量中找出少數(shù)幾個(gè)綜合指標(biāo)(原始變量的線性組合),并且這幾個(gè)綜合指標(biāo)將盡可能多地保留原來(lái)指標(biāo)變異方面的信息虑凛,且這些綜合指標(biāo)互不相關(guān)谤狡。這些綜合指標(biāo)就稱為主成分。主成分的數(shù)目少于原始變量的數(shù)目卧檐。
在一個(gè)低維空間識(shí)辨系統(tǒng)要比在一個(gè)高維空間容易得多墓懂。因此,更容易抓住主要矛盾霉囚,揭示事物內(nèi)部變量之間的規(guī)律性捕仔,使問(wèn)題得到簡(jiǎn)化,提高分析效率盈罐。指標(biāo)間具有相關(guān)性是做主成分分析的前提榜跌。
主成分分析是一種數(shù)學(xué)變換方法,它把給定的一組變量通過(guò)線性變換轉(zhuǎn)換為一組不相關(guān)的變量盅粪。在這種變換中钓葫,保持變量的總方差不變,同時(shí)票顾,使第一主成分具有最大方差础浮,第二主成分具有次大方差帆调,依此類推。
主成分與原始變量間的關(guān)系
(1)每一個(gè)主成分是原始變量的線性組合豆同。
(2)主成分的數(shù)目少于原始變量的數(shù)目番刊。
(3)主成分保留了原始變量的大多數(shù)變異信息。
(4)各主成分間互不相關(guān)影锈。
2 幾何解釋與數(shù)學(xué)模型
2.1 幾何解釋
假定只有二維芹务,即只有兩個(gè)變量,由橫坐標(biāo)和縱坐標(biāo)所代表鸭廷;每個(gè)觀測(cè)值都有相應(yīng)于這兩個(gè)坐標(biāo)軸的坐標(biāo)值枣抱。如果這些數(shù)據(jù)形成一個(gè)橢圓形狀的點(diǎn)陣(這在二維正態(tài)的假定下是可能的)該橢圓有一個(gè)長(zhǎng)軸和一個(gè)短軸。在短軸方向上數(shù)據(jù)變化較少辆床。在極端的情況佳晶,短軸如退化成一點(diǎn),長(zhǎng)軸的方向可以完全解釋這些點(diǎn)的變化佛吓,由二維到一維的降維就自然完成了。
由圖可以看出這些樣本點(diǎn)無(wú)論是沿著xl軸方向或x2軸方向都具有較大的離散性垂攘,其離散的程度可以分別用觀測(cè)變量x1的方差和x2的方差定量地表示维雇。顯然,如果只考慮x1和x2中的任何一個(gè)晒他,那么包含在原始數(shù)據(jù)中的經(jīng)濟(jì)信息將會(huì)有較大的損失吱型。
當(dāng)坐標(biāo)軸和橢圓的長(zhǎng)短軸平行,那么代表長(zhǎng)軸的變量就描述了數(shù)據(jù)的主要變化陨仅,而代表短軸的變量就描述了數(shù)據(jù)的次要變化津滞。但是,坐標(biāo)軸通常并不和橢圓的長(zhǎng)短軸平行灼伤。因此触徐,需要尋找橢圓的長(zhǎng)短軸,并進(jìn)行變換狐赡,使得新變量和橢圓的長(zhǎng)短軸平行撞鹉。如果長(zhǎng)軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個(gè)變量(舍去次要的一維)颖侄,降維就完成了鸟雏。橢圓的長(zhǎng)短軸相差得越大,降維也越有道理览祖。
2.2 數(shù)學(xué)模型
如果我們將xl軸和x2軸先平移孝鹊,再同時(shí)按逆時(shí)針?lè)较蛐D(zhuǎn)θ角度,得到新坐標(biāo)軸Fl和F2展蒂。Fl和F2是兩個(gè)新變量又活。
旋轉(zhuǎn)變換的目的是為了使得n個(gè)樣品點(diǎn)在Fl軸方向上的離散程度最大苔咪,即Fl的方差最大。變量Fl代表了原始數(shù)據(jù)的絕大部分信息皇钞,在研究某經(jīng)濟(jì)問(wèn)題時(shí)悼泌,即使不考慮變量F2也無(wú)損大局。經(jīng)過(guò)上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到Fl軸上夹界,對(duì)數(shù)據(jù)中包含的信息起到了濃縮作用馆里。
Fl刨秆, F2除了可以對(duì)包含在Xl倚评, X2中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì)花墩,這就使得在研究復(fù)雜的問(wèn)題時(shí)避免了信息重疊所帶來(lái)的虛假性复斥。二維平面上的個(gè)點(diǎn)的方差大部分都?xì)w結(jié)在Fl軸上营密,而F2軸上的方差很小。 Fl和F2稱為原始變量目锭,x1和x2的綜合變量评汰。 簡(jiǎn)化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾痢虹。
多維情形
多維變量的情況和二維類似被去。正如二維橢圓有兩個(gè)主軸,三維橢球有三個(gè)主軸一樣奖唯,有幾個(gè)變量惨缆,就有幾個(gè)主軸。和二維情況類似丰捷,高維橢球的主軸也是互相垂直的坯墨。首先把高維橢球的主軸找出來(lái),再用代表大多數(shù)數(shù)據(jù)信息的最長(zhǎng)的幾個(gè)軸作為新變量病往。這些互相正交的新變量是原先變量的線性組合捣染,叫做主成分(principal component)。
假設(shè)我們所討論的實(shí)際問(wèn)題中停巷,有p個(gè)指標(biāo)液斜,我們把這p個(gè)指標(biāo)看作p個(gè)隨機(jī)變量,主成分分析就是要把這個(gè)p指標(biāo)的問(wèn)題叠穆,轉(zhuǎn)變?yōu)橛懻損個(gè)指標(biāo)的線性組合的問(wèn)題少漆,而這些新的指標(biāo)按照保留主要信息量的原則充分反映原指標(biāo)的信息,并且相互獨(dú)立硼被。
這種由討論多個(gè)指標(biāo)降為少數(shù)幾個(gè)綜合指標(biāo)的過(guò)程在數(shù)學(xué)上就叫做降維示损。主成分分析通常的做法是,尋求原指標(biāo)的線性組合Fi嚷硫。
滿足條件
每個(gè)主成分的系數(shù)平方和為1检访。
主成分之間相互獨(dú)立始鱼,即無(wú)重疊的信息。
主成分的方差依次遞減脆贵,重要性依次遞減医清,
3 主成分的推導(dǎo)
兩個(gè)線性代數(shù)的結(jié)論
詳見(jiàn)CSDN和hexo博客
4 主成分的性質(zhì)
1、均值 $E(U'x)=U'\mu$
2卖氨、方差為所有特征根之和
3会烙、精度分析
1)貢獻(xiàn)率:第i個(gè)主成分的方差在全部方差中所占比重稱為貢獻(xiàn)率,體現(xiàn)這個(gè)主成分的綜合能力的大小筒捺,即反映原來(lái)p個(gè)指標(biāo)的信息的多少柏腻。
2)累積貢獻(xiàn)率:前k個(gè)主成分共有多大的綜合能力,用這個(gè)k個(gè)主成分的方差和在全部方差中所占比重來(lái)描述系吭,稱為累積貢獻(xiàn)率五嫂。
我們進(jìn)行主成分分析的目的之一是希望用盡可能少的主成分代替原來(lái)的p個(gè)指標(biāo)。到底應(yīng)該選擇多少個(gè)主成分肯尺,在實(shí)際工作中沃缘,所采用主成分個(gè)數(shù)的多少取決于能夠反映原來(lái)變量85%以上的信息量為依據(jù),即當(dāng)累積貢獻(xiàn)率≥85%時(shí)的主成分的個(gè)數(shù)就足夠了则吟。最常見(jiàn)的情況是主成分為2到3個(gè)槐臀。
4、載荷矩陣
原始變量被主成分的提取率
主成分的貢獻(xiàn)率和累計(jì)貢獻(xiàn)率度量了從原始變量中提取了多少信息逾滥。
公共成分
定義:如果一個(gè)主成分僅僅對(duì)某一個(gè)原始變量有作用峰档,則稱為特殊成分败匹。如果一個(gè)主成分對(duì)所有的原始變量都起作用寨昙,則稱為公共成分。
5 主成分分析的步驟
第一步:由X的協(xié)方差陣或相關(guān)系數(shù)陣Σ掀亩,求出其特征根舔哪,即解方程,可得特征根槽棍。
第二步:求出特征根所對(duì)應(yīng)的特征向量捉蚤,
第三步:計(jì)算累積貢獻(xiàn)率,給出恰當(dāng)?shù)闹鞒煞謧€(gè)數(shù)炼七。
第四步:計(jì)算所選出的k個(gè)主成分的得分缆巧。將原始數(shù)據(jù)的中心化值:
代入前k個(gè)主成分的表達(dá)式,分別計(jì)算出各單位k個(gè)主成分的得分豌拙,并按得分值的大小排隊(duì)陕悬。
基于協(xié)方差矩陣
基于相關(guān)系數(shù)矩陣
如果變量有不同的量綱, 變量水平差異很大按傅,應(yīng)該基于相關(guān)系數(shù)矩陣進(jìn)行主成分分析捉超。不同的是計(jì)算得分時(shí)應(yīng)采用標(biāo)準(zhǔn)化后的數(shù)據(jù)胧卤。
6 主成分的應(yīng)用與回歸
1、主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)拼岳。即用研究m維的Y空間代替p維的X空間(m<p)枝誊,而低維的Y空間代替高維的x空間所損失的信息很少。即使只有一個(gè)主成分Y1(即m=1)時(shí)惜纸,這個(gè)Y1仍是使用全部X變量(p個(gè))得到的叶撒。在所選的前m個(gè)主成分中,如果某個(gè)Xi的系數(shù)全部近似于零的話堪簿,就可以把這個(gè)Xi刪除痊乾,這也是一種刪除多余變量的方法。
2椭更、多維數(shù)據(jù)的一種圖形表示方法哪审。多元統(tǒng)計(jì)研究的問(wèn)題大都多于3個(gè)變量,要把研究的問(wèn)題用圖形表示出來(lái)是不可能的虑瀑。然而湿滓,經(jīng)過(guò)主成分分析后,我們可以選取前兩個(gè)主成分或其中某兩個(gè)主成分舌狗,根據(jù)主成分的得分叽奥,畫出n個(gè)樣品在二維平面上的分布情況,由圖形可直觀地看出各樣品在主分量中的地位痛侍。
3朝氓、用主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來(lái)的自變量做回歸分析主届。
主成分回歸方法
主成分分析的一些注意事項(xiàng)
主成分分析依賴于原始變量赵哲,也只能反映原始變量的信息。所以原始變量的選擇很重要君丁。
如果原始變量本質(zhì)上獨(dú)立枫夺,那么降維就可能失敗,這是因?yàn)楹茈y把很多獨(dú)立變量用少數(shù)綜合的變量概括绘闷。數(shù)據(jù)越相關(guān)橡庞,降維效果就越好。
分析結(jié)果并不一定會(huì)有清楚的解釋印蔗。這與問(wèn)題的性質(zhì)扒最,選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系。
基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析华嘹?
有時(shí)基于相關(guān)系數(shù)矩陣和基于協(xié)方差矩陣求出的主成分會(huì)有很大不同吧趣,且兩者之間不存在簡(jiǎn)單的線性關(guān)系。
一般而言,當(dāng)分析中所選擇的經(jīng)濟(jì)變量具有不同的量綱再菊,變量水平差異很大爪喘,應(yīng)考慮將數(shù)據(jù)標(biāo)準(zhǔn)化,選擇基于相關(guān)系數(shù)矩陣的主成分分析纠拔。對(duì)同度量或是取值范圍在同量級(jí)的數(shù)據(jù)秉剑,選擇基于協(xié)方差矩陣的主成分分析。
選擇幾個(gè)主成分稠诲?
主成分分析的目的是簡(jiǎn)化變量侦鹏,一般情況下主成分的個(gè)數(shù)應(yīng)該小于原始變量的個(gè)數(shù)。關(guān)于保留幾個(gè)主成分臀叙,應(yīng)該權(quán)衡主成分個(gè)數(shù)和保留的信息略水。
如何解釋主成分所包含的經(jīng)濟(jì)意義?
主成分分析不要求數(shù)據(jù)來(lái)自于正態(tài)總體劝萤。一般認(rèn)為當(dāng)原始數(shù)據(jù)大部分變量的相關(guān)系數(shù)都小于0.3時(shí)渊涝,運(yùn)用主成分分析的效果不顯著。
7 主成分分析的R語(yǔ)言實(shí)現(xiàn)
主成分分析的函數(shù)本篇介紹的主要有兩個(gè)床嫌。
一個(gè)是princomp跨释,一個(gè)是psych里的principal。
princomp(x,cor=FALSE,scores=TRUE)
x為主成分分析數(shù)據(jù)集厌处,cor=TRUE和FALSE分別代表是基于相關(guān)系數(shù)矩陣計(jì)算還是協(xié)方差矩陣計(jì)算鳖谈。scores則代表是否存儲(chǔ)主成分得分。
principal(x,nfactors=2,rotate="varimax",scores=T,covar=F)
x為主成分分析數(shù)據(jù)集阔涉,nfactors為主成分個(gè)數(shù)缆娃,rotate表示旋轉(zhuǎn)方式(一般選方差最大,保證互不相關(guān))瑰排,scores則代表是否存儲(chǔ)主成分得分贯要,covar=TRUE和FALSE分別代表是基于協(xié)方差矩陣計(jì)算還是相關(guān)系數(shù)矩陣計(jì)算。
這回用的數(shù)據(jù)是2006年城市統(tǒng)計(jì)年鑒285個(gè)地級(jí)市的經(jīng)濟(jì)人口數(shù)據(jù)凶伙,探究gdp與人口之間的關(guān)系郭毕。
先做一個(gè)相關(guān)系數(shù)可視化它碎。發(fā)現(xiàn)人口因子之間相互影響因子很高函荣。
于是先對(duì)人口的幾個(gè)因子進(jìn)行降維和主成分分析,中途發(fā)現(xiàn)第三產(chǎn)業(yè)從業(yè)人數(shù)(third)加入會(huì)使得系數(shù)矩陣不正定扳肛,后面就刪除了第三產(chǎn)業(yè)從業(yè)人數(shù)(third)傻挂。
分別用不同方式進(jìn)行主成分分析結(jié)果。
princomp結(jié)果(基于協(xié)方差矩陣)
碎石圖
結(jié)果
主成分得分圖
princomp結(jié)果(基于相關(guān)系數(shù)矩陣)
碎石圖
結(jié)果
主成分得分圖
principal結(jié)果
碎石圖
因子關(guān)系圖
主成分得分圖
碎石圖表示的是曲線與縱坐標(biāo)1交點(diǎn)的橫坐標(biāo)即為主成分個(gè)數(shù)挖息,而主成分得分荷圖是將原始數(shù)據(jù)的坐標(biāo)映射在主成分分析的坐標(biāo)上金拒,事實(shí)上可以根據(jù)主成分得分在不同象限對(duì)原始數(shù)據(jù)進(jìn)行分類,在本篇的樣例數(shù)據(jù)里其實(shí)就是可以通過(guò)人口生成的幾個(gè)主成分對(duì)中國(guó)地級(jí)市進(jìn)行分類,可以區(qū)分出是在第一主成分得分高绪抛,第二主成分得分低的城市资铡,亦或是其他排列組合的分類結(jié)果。關(guān)于這種可視化圖具體如何解釋幢码◇孕荩可以參照如下的文章。