主成分分析
- 基本思想:
實質(zhì)上是將多個指標(biāo)綜合成少數(shù)幾個指標(biāo)的方法。
主成分分析是利用降維的方法,在確保數(shù)據(jù)信息損失最小的原則下,把多個指標(biāo)轉(zhuǎn)化為少數(shù)幾個綜合指標(biāo)的一種對多變量數(shù)據(jù)進行最佳綜合簡化的多元統(tǒng)計方法。
主成分是原始變量之間的線性組合,且主成分之間互不相關(guān)顷蟀。
主成份分析的主要目的是壓縮指標(biāo)個數(shù)、簡化數(shù)據(jù)骡技,但常常與回歸分析鸣个、因子分析、聚類分析布朦、判別分析等等套用囤萤。
- 基本步驟
- 計算相關(guān)系數(shù)陣,檢驗待分析的變量是否適合做主成份分析是趴。
- 根據(jù)所研究問題的初始變量的特征判斷由協(xié)方差陣求主成分涛舍,還是由相關(guān)陣求主成分。
一般來說唆途,分析中選擇的變量具有不同的計量單位富雅,或變量水平差異較大時,應(yīng)選擇基于相關(guān)系數(shù)矩陣的主成分分析肛搬。否則還是選擇協(xié)方差陣做主成份分析效果更好没佑。(實際情況可以都嘗試一下~)
- 求協(xié)方差陣或相關(guān)系數(shù)陣的特征根及對應(yīng)標(biāo)準(zhǔn)化特征向量。
- 確定主成分個數(shù)温赔。
- 寫出主成分的表達式蛤奢。
- SPSS應(yīng)用
步驟:分析->降維->因子分析,選入變量后單擊描述
,如圖:
單擊抽取
后選擇“碎石圖”啤贩,保持默認(rèn)的相關(guān)系數(shù)陣不變待秃,如圖:
單擊得分
中的“顯示因子得分系數(shù)矩陣”,如圖:
輸出的主要結(jié)果:
由表可知痹屹,3個主成分可以解釋80%左右的總變異锥余。因此選擇3個主成分是比較合適的。
碎石圖的作用和上表相似痢掠。在第3個特征根處趨勢變的比較平緩,因此選擇三個主成份是合適的嘲恍。
根據(jù)得分系數(shù)矩陣可以寫出標(biāo)準(zhǔn)化的原始變量表示的主成分的表達式足画。
因子分析
- 基本思想:
因子分析是主成分分析的推廣。
同是在確保數(shù)據(jù)信息丟失的原則下佃牛,因子分析研究變量之間的內(nèi)部依賴關(guān)系淹辞,從原始變量的相關(guān)矩陣出發(fā),將相關(guān)性較強的變量歸于一類俘侠,最終形成幾類假想型變量象缀。每類變量代表了一個“公共因子”(本質(zhì)因子、基本特征)爷速。
因子分析主要功能是簡化數(shù)據(jù)央星、探測數(shù)據(jù)的基本結(jié)構(gòu)。還可以與回歸分析惫东、聚類分析莉给、判別分析等套用。
- 基本步驟
- 選擇分析變量廉沮,檢驗待分析的原始變量是否適合做因子分析颓遏。
SPSS提供了3種檢驗方法判斷數(shù)據(jù)是否適合做因子分析:巴特利特球形檢驗、反映像相關(guān)矩陣檢驗滞时、KMO檢驗
- 提取公因子(默認(rèn)是主成分分析法)叁幢。
- 選擇合適公因子的數(shù)量(累計貢獻率70%以上)。
- 旋轉(zhuǎn)因子使公因子具有可解釋性坪稽。
SPSS提供了多種旋轉(zhuǎn)方法曼玩,之所以有這么多方法,是因為沒有一種方法令人完全滿意窒百。所以在不知道該用哪種方法旋轉(zhuǎn)時演训,采用默認(rèn)的方差最大法即可。
- 進行因子命名贝咙。
需要研究者主觀分析样悟。可以根據(jù)因子載荷較大對應(yīng)的幾個原始變量的含義嘗試對因子進行命名。
- 計算因子得分窟她,進行結(jié)果解釋陈症。
- SPSS應(yīng)用
步驟:分析->降維->因子分析,選入變量后單擊描述
震糖,選擇KMO和巴特利特球形檢驗录肯,如圖:
輸出結(jié)果:
KMO的值=0.687>0.05勉強可以進行因子分析。巴特利特球形檢驗的p=0.009<0.05吊说,認(rèn)為合適進行因子分析论咏。
接下來,重復(fù)上節(jié)的主成分步驟颁井,得到3個主成分厅贪,其累計貢獻率為80%左右。
為了更好地解釋公因子含義雅宾,點擊旋轉(zhuǎn)
养涮,如圖:
輸出的主要結(jié)果:
由表可知,因子1在X2眉抬、X5贯吓、X4上有較大載荷,可命名為資產(chǎn)因子蜀变;因子2在X7上有較大載荷悄谐,可命名為銷售率因子;因子3在X1上有較大載荷库北,可命名為增加值率因子尊沸。
主成分分析 VS 因子分析
- 基本思想
兩者都是處理多變量數(shù)據(jù)的一種統(tǒng)計方法,都可以達到對數(shù)據(jù)簡化的目的贤惯。
但二者又有很大不同洼专。主成分分析僅僅是變量變換,強調(diào)解釋數(shù)據(jù)變異的能力孵构,適合做數(shù)據(jù)簡化屁商,模型中沒有誤差項,主成分沒有實際意義颈墅;而因子分析是要尋找變量內(nèi)部的相關(guān)性及潛在的公共因子蜡镶,強調(diào)變量之間的相關(guān)性,適合檢測數(shù)據(jù)結(jié)構(gòu)恤筛,模型中有誤差項官还,公因子一般有實際意義。
- 基本步驟
因子分析實際上是建立在主成分分析上的毒坛,可以看作是主成分的推廣和擴展望伦。主成分又可以看作是因子分析的一個特例林说,是因子分析中因子載荷估計的一種方法。
比較方面 | 主成分分析 | 因子分析 |
---|---|---|
基本思想 | 通過變量變換把注意力集中在具有較大變差的那些主成分上屯伞,而舍棄那些變差小的主成分腿箩。 | 因子分析把注意力集中在少數(shù)不可觀測的潛在變量(即公共因子)上,而舍棄特殊因子劣摇。 |
系數(shù) | 主成分的各系數(shù)珠移,是唯一確定的、正交的末融。 | 因子分析的系數(shù)矩陣是不唯一的钧惧、可以進行旋轉(zhuǎn)的。 |
核心 | 主成分是各成分之間的線性變換勾习。 | 因子分析的各因子具有確定的解釋意義浓瞪。 |