常用的統(tǒng)計(jì)分析方法總結(jié)(聚類分析、主成分分析宵凌、因子分析)

一.聚類分析

  • 聚類的目的
    1.間隔尺度:變量用連續(xù)的量來表示【常用】
    2.有序尺度:有次序關(guān)系鞋囊,指標(biāo)有有序的等級(jí)來表示
    3.名義尺度:指標(biāo)用一些類來表示,這些沒有等級(jí)和數(shù)量的關(guān)系

1.1聚類分析的類型

  • Q型聚類:對(duì)樣品的聚類
  • R型聚類:對(duì)變量的聚類

1.2聚類分析按研究方法分類

1.系統(tǒng)聚類法:由N類--1類
2.分解法:由1類---N類
3.K-均值法:事先在聚類過程中確定在K類瞎惫,適用于數(shù)據(jù)量大的數(shù)據(jù)
4.有序樣品的聚類:N個(gè)樣品排序溜腐,次序相鄰的樣品聚成一類
5.模糊聚類法:模糊數(shù)學(xué)的方法,多用于定性變量
6.加入法:樣品依次加入瓜喇,全部加入完得到聚類圖挺益。

1.4相似性度量

1.4.1 樣品相似性的度量【Q】
image.png
1.4.2 變量相似性的度量【R】

a.夾角余弦
b.相關(guān)系數(shù)

1.4.3類間距離

a.常用的類間距離定義有8種之多,與之相應(yīng)的系統(tǒng)聚類法 也有8種欠橘,分別為
a.中間距離法
b.最短距離法:類與類之間的距離最近兩個(gè)樣品的距離矩肩。
c.最長距離法:類與類之間的距離最遠(yuǎn)兩個(gè)樣品的距離∷嘈【先距離最短黍檩,后距離最遠(yuǎn)合并】
d.類平均法:兩類元素中任兩個(gè)樣品距離的平均。
e.重心法:兩個(gè)重心xp 和xq 的距離始锚。
f.可變類平均法
e.離差平方和法(Ward法): 該方法的基本思想來自于方差分析刽酱,如果分類正確,同 類樣品的離差平方和應(yīng)當(dāng)較小瞧捌,類與類的離差平方和較大棵里。 具體做法是先將 n 個(gè)樣品各自成一類,然后每次縮小一類姐呐,每 縮小一類殿怜,離差平方和就要增大,選擇使方差增加最小的兩 類合并曙砂,直到所有的樣品歸為一類為止头谜。

1.5最短距離法vs最長聚類法

a. 最短距離法的主要缺點(diǎn)是它有鏈接聚合的趨勢(shì),容易形 成一個(gè)比較大的類鸠澈,大部分樣品都被聚在一類中柱告,所以最短 距離法的聚類效果并不好,實(shí)際中不提倡使用笑陈。
b. 最長距離法克服了最短距離法鏈接聚合的缺陷际度,兩類合 并以后與其他類的距離是原來兩個(gè)類中的距離最大者,加大 了合并后的類與其他類的距離涵妥。

二.主成分分析

2.1.主成分分析的基本思想

a. 定義:主成分分析(Principal Component Analysis乖菱,簡記 PCA)是將多個(gè)指標(biāo)化為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法,通常我們把轉(zhuǎn)化成的綜合指標(biāo)稱為主成分。

b. 本質(zhì):降維

c. 表達(dá):主成分為原始變量的線性組合
d. 即信息量在空間降維以后信息量沒有發(fā)生改變窒所,所有主成分的方差之和與原始的方差之和

e. 多個(gè)變量之間有一定的相關(guān)性娜氏,利用原始變量 的線性組合形成幾個(gè)綜合指標(biāo)(主成分),在保留原始變量主要信息的前提下起到降維與簡化問題的作用墩新。

f. 累積貢獻(xiàn)率一般是85%以上

2.2主成分與原始變量之間有如下基本關(guān)系

(1)每一個(gè)主成分都是各原始變量的線性組合
(2)主成分的數(shù)目大大少于原始變量的數(shù)目
(3)主成分保留了原始變量絕大多數(shù)信息
(4)各主成分之間互不相關(guān)

  1. 變量的變異性越大,說明它提供的信息量就越大
  2. 主成分分析將按照變量方差的大小順序挑選幾個(gè)主成分窟坐。

三.因子分析

3.1 因子分析的基礎(chǔ)理念

a. 基本目的:用少數(shù)幾個(gè)綜合因子去描述多個(gè)隨機(jī)變量之間的相關(guān)關(guān)系海渊。
b. 定義:多個(gè)變量————少數(shù)綜合因子(不存在的因子)
c. 顯在變量:原始變量X;潛在變量:因子F
d. X=AF+e【公共因子+特殊因子】
e. 應(yīng)用:因子分析主要用于相關(guān)性很強(qiáng)的多指標(biāo)數(shù)據(jù)的降維處理哲鸳。
f. 通過研究原始變量相關(guān)矩陣內(nèi)部 的依賴關(guān)系臣疑,把一些具有錯(cuò)綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個(gè)綜合因子的一種多變量統(tǒng)計(jì)分析方法。
g. 定義:原始的變量是可觀測(cè)的顯在變量徙菠,而綜合的因子是不可觀測(cè)潛在變量讯沈,稱為因子。

3.2 因子分析的基本思想

i. 根據(jù)相關(guān)性大小把原始變量分組婿奔,使得同組內(nèi)的變量之間相關(guān)性較高缺狠,而不同組的變量間的相關(guān)性則較低。
ii. 公共因子:每組變量代表一個(gè)基本結(jié)構(gòu)萍摊,并用一個(gè)不可觀測(cè)的綜合變量表示挤茄。
iii. 對(duì)于所研究的某一具體問題,原始變量分解成兩部分:

  1. 一部分是少數(shù)幾個(gè)不可測(cè)的所謂公共因子的線性函數(shù)冰木。
  2. 另一部分是與公共因子無關(guān)特殊因子穷劈。
3.2.1因子分析的研究關(guān)系

i. R 型因子分析——研究變量之間的相關(guān)關(guān)系
ii. Q 型因子分析——研究樣品之間的相關(guān)關(guān)系

3.3統(tǒng)計(jì)意義

3.3.1因子載荷aij的統(tǒng)計(jì)意義

a. 因子載荷 是第i個(gè)變量與第j個(gè)公共因子的相關(guān)系數(shù),絕對(duì)值越大踊沸,相關(guān)的密切程度越高歇终。

b.
image.png
3.3.2 變量共同度hi的統(tǒng)計(jì)意義【橫著求和】

a. 變量 Xi 的共同度是因子載荷矩陣的第i行的元素的平方和。記為


image.png

b. 所有的公共因子與特殊因子對(duì)變量 Xi 的貢獻(xiàn)和為1逼龟。


image.png

image.png
3.3.3 公共因子FJ方法貢獻(xiàn)gi2的統(tǒng)計(jì)意義【豎著求和】
image.png

3.4因子分析三個(gè)步驟

a. 確定因子載荷
b. 因子旋轉(zhuǎn)
c. 計(jì)算因子得分

3.5因子旋轉(zhuǎn)

3.5.1旋轉(zhuǎn)的目的

a. 尋找簡單結(jié)構(gòu)的載荷矩陣:載荷矩陣A的所有元素都接 近0或±1评凝,則模型的公共因子就易于解釋。
b. 如果各主因子的典型代表變量不突出审轮,就需要進(jìn)行旋轉(zhuǎn)使因子載荷矩陣中載荷的絕對(duì)值向0和1兩個(gè)方向分化肥哎。

3.5.2旋轉(zhuǎn)的方法

a.意義:對(duì)公共因子作正交旋轉(zhuǎn)相當(dāng)于對(duì)載荷矩陣 A 作一正交變換 ,右乘正交矩陣 T 疾渣,使 A* = AT 能有更鮮明的實(shí)際意義篡诽。
b.幾何意義:是在 m 維空間上對(duì)原因子軸作一剛性旋轉(zhuǎn)。 因子旋轉(zhuǎn)不改變公共因子的共同度榴捡,這是因?yàn)?AA'=ATT'A'=AA'
c. 旋轉(zhuǎn)方法有:正交旋轉(zhuǎn)和斜交旋轉(zhuǎn)
d. 最普遍的是:最大方差旋轉(zhuǎn)法

3.5.3最大方差旋轉(zhuǎn)法:

a. 定義:通過坐標(biāo)變換使各個(gè)因子載荷的方差之和最大杈女。
b. 任何一個(gè)變量只在一個(gè)因子上有高貢獻(xiàn)率,而在 其它因子上的載荷幾乎為0;
c. 任何一個(gè)因子只在少數(shù)變量上有高載荷,而在其 它變量上的載荷幾乎為0达椰。

3.5.4因子分析的邏輯圖:
image.png

因子分析和主成分分析的區(qū)別和聯(lián)系

1.聯(lián)系

思想相同:降維
前提條件:各變量間必須有相關(guān)性翰蠢,否則各變量之間沒有共享信息

2.區(qū)別

  • 主成分分析:將主成分表示成原始變量的的線性組合

  • 因子分析:將原始變量表示成公共因子與特殊因子的線性組合,且公共因子不可觀測(cè)啰劲。

  • 主成分分析:主成分個(gè)數(shù)與變量個(gè)數(shù)相同(實(shí)際中取前面若干幾個(gè))

  • 因子分析:公因子個(gè)數(shù)少于變量個(gè)數(shù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末梁沧,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子蝇裤,更是在濱河造成了極大的恐慌廷支,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,265評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件栓辜,死亡現(xiàn)場離奇詭異恋拍,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)藕甩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門施敢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人狭莱,你說我怎么就攤上這事僵娃。” “怎么了贩毕?”我有些...
    開封第一講書人閱讀 156,852評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵悯许,是天一觀的道長。 經(jīng)常有香客問我辉阶,道長先壕,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,408評(píng)論 1 283
  • 正文 為了忘掉前任谆甜,我火速辦了婚禮垃僚,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘规辱。我一直安慰自己谆棺,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,445評(píng)論 5 384
  • 文/花漫 我一把揭開白布罕袋。 她就那樣靜靜地躺著改淑,像睡著了一般。 火紅的嫁衣襯著肌膚如雪浴讯。 梳的紋絲不亂的頭發(fā)上朵夏,一...
    開封第一講書人閱讀 49,772評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音榆纽,去河邊找鬼仰猖。 笑死捏肢,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的饥侵。 我是一名探鬼主播鸵赫,決...
    沈念sama閱讀 38,921評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼躏升!你這毒婦竟也來了辩棒?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,688評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤膨疏,失蹤者是張志新(化名)和其女友劉穎盗温,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體成肘,經(jīng)...
    沈念sama閱讀 44,130評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,467評(píng)論 2 325
  • 正文 我和宋清朗相戀三年斧蜕,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了双霍。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,617評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡批销,死狀恐怖洒闸,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情均芽,我是刑警寧澤丘逸,帶...
    沈念sama閱讀 34,276評(píng)論 4 329
  • 正文 年R本政府宣布,位于F島的核電站掀宋,受9級(jí)特大地震影響深纲,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜劲妙,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,882評(píng)論 3 312
  • 文/蒙蒙 一湃鹊、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧镣奋,春花似錦币呵、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至哈垢,卻和暖如春妻柒,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背温赔。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評(píng)論 1 265
  • 我被黑心中介騙來泰國打工蛤奢, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留鬼癣,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,315評(píng)論 2 360
  • 正文 我出身青樓啤贩,卻偏偏與公主長得像待秃,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子痹屹,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,486評(píng)論 2 348