常用的統(tǒng)計(jì)分析方法總結(jié)(聚類分析、主成分分析宵凌、因子分析)

一.聚類分析

聚類的目的
1.間隔尺度：變量用連續(xù)的量來表示【常用】
2.有序尺度：有次序關(guān)系鞋囊，指標(biāo)有有序的等級(jí)來表示
3.名義尺度：指標(biāo)用一些類來表示，這些沒有等級(jí)和數(shù)量的關(guān)系

1.1聚類分析的類型

Q型聚類：對(duì)樣品的聚類
R型聚類：對(duì)變量的聚類

1.2聚類分析按研究方法分類

1.系統(tǒng)聚類法:由N類--1類
2.分解法：由1類---N類
3.K-均值法：事先在聚類過程中確定在K類瞎惫，適用于數(shù)據(jù)量大的數(shù)據(jù)
4.有序樣品的聚類：N個(gè)樣品排序溜腐，次序相鄰的樣品聚成一類
5.模糊聚類法：模糊數(shù)學(xué)的方法，多用于定性變量
6.加入法：樣品依次加入瓜喇，全部加入完得到聚類圖挺益。

1.4相似性度量

1.4.1 樣品相似性的度量【Q】

image.png

1.4.2 變量相似性的度量【R】

a.夾角余弦
b.相關(guān)系數(shù)

1.4.3類間距離

a.常用的類間距離定義有8種之多，與之相應(yīng)的系統(tǒng)聚類法 也有8種欠橘，分別為
a.中間距離法
b.最短距離法：類與類之間的距離最近兩個(gè)樣品的距離矩肩。
c.最長距離法：類與類之間的距離最遠(yuǎn)兩個(gè)樣品的距離∷嘈【先距離最短黍檩，后距離最遠(yuǎn)合并】
d.類平均法：兩類元素中任兩個(gè)樣品距離的平均。
e.重心法：兩個(gè)重心xp 和xq 的距離始锚。
f.可變類平均法
e.離差平方和法（Ward法）：該方法的基本思想來自于方差分析刽酱，如果分類正確，同類樣品的離差平方和應(yīng)當(dāng)較小瞧捌，類與類的離差平方和較大棵里。具體做法是先將 n 個(gè)樣品各自成一類，然后每次縮小一類姐呐，每縮小一類殿怜，離差平方和就要增大，選擇使方差增加最小的兩類合并曙砂，直到所有的樣品歸為一類為止头谜。

1.5最短距離法vs最長聚類法

a. 最短距離法的主要缺點(diǎn)是它有鏈接聚合的趨勢(shì)，容易形成一個(gè)比較大的類鸠澈，大部分樣品都被聚在一類中柱告，所以最短距離法的聚類效果并不好，實(shí)際中不提倡使用笑陈。
b. 最長距離法克服了最短距離法鏈接聚合的缺陷际度，兩類合并以后與其他類的距離是原來兩個(gè)類中的距離最大者，加大了合并后的類與其他類的距離涵妥。

二.主成分分析

2.1.主成分分析的基本思想

a. 定義：主成分分析（Principal Component Analysis乖菱，簡記 PCA）是將多個(gè)指標(biāo)化為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法，通常我們把轉(zhuǎn)化成的綜合指標(biāo)稱為主成分。

b. 本質(zhì)：降維

c. 表達(dá)：主成分為原始變量的線性組合
d. 即信息量在空間降維以后信息量沒有發(fā)生改變窒所，所有主成分的方差之和與原始的方差之和

e. 多個(gè)變量之間有一定的相關(guān)性娜氏，利用原始變量的線性組合形成幾個(gè)綜合指標(biāo)（主成分），在保留原始變量主要信息的前提下起到降維與簡化問題的作用墩新。

f. 累積貢獻(xiàn)率一般是85%以上

2.2主成分與原始變量之間有如下基本關(guān)系：

（1）每一個(gè)主成分都是各原始變量的線性組合
（2）主成分的數(shù)目大大少于原始變量的數(shù)目
（3）主成分保留了原始變量絕大多數(shù)信息
（4）各主成分之間互不相關(guān)

變量的變異性越大，說明它提供的信息量就越大
主成分分析將按照變量方差的大小順序挑選幾個(gè)主成分窟坐。

三.因子分析

3.1 因子分析的基礎(chǔ)理念

a. 基本目的：用少數(shù)幾個(gè)綜合因子去描述多個(gè)隨機(jī)變量之間的相關(guān)關(guān)系海渊。
b. 定義：多個(gè)變量————少數(shù)綜合因子（不存在的因子）
c. 顯在變量：原始變量X；潛在變量：因子F
d. X=AF+e【公共因子+特殊因子】
e. 應(yīng)用：因子分析主要用于相關(guān)性很強(qiáng)的多指標(biāo)數(shù)據(jù)的降維處理哲鸳。
f. 通過研究原始變量相關(guān)矩陣內(nèi)部的依賴關(guān)系臣疑，把一些具有錯(cuò)綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個(gè)綜合因子的一種多變量統(tǒng)計(jì)分析方法。
g. 定義：原始的變量是可觀測(cè)的顯在變量徙菠，而綜合的因子是不可觀測(cè)的潛在變量讯沈，稱為因子。

3.2 因子分析的基本思想

i. 根據(jù)相關(guān)性大小把原始變量分組婿奔，使得同組內(nèi)的變量之間相關(guān)性較高缺狠，而不同組的變量間的相關(guān)性則較低。
ii. 公共因子：每組變量代表一個(gè)基本結(jié)構(gòu)萍摊，并用一個(gè)不可觀測(cè)的綜合變量表示挤茄。
iii. 對(duì)于所研究的某一具體問題，原始變量分解成兩部分：

一部分是少數(shù)幾個(gè)不可測(cè)的所謂公共因子的線性函數(shù)冰木。
另一部分是與公共因子無關(guān)的特殊因子穷劈。

3.2.1因子分析的研究關(guān)系

i. R 型因子分析——研究變量之間的相關(guān)關(guān)系
ii. Q 型因子分析——研究樣品之間的相關(guān)關(guān)系

3.3統(tǒng)計(jì)意義

3.3.1因子載荷aij的統(tǒng)計(jì)意義

a. 因子載荷是第i個(gè)變量與第j個(gè)公共因子的相關(guān)系數(shù)，絕對(duì)值越大踊沸，相關(guān)的密切程度越高歇终。

image.png

3.3.2 變量共同度hi的統(tǒng)計(jì)意義【橫著求和】

a. 變量 Xi 的共同度是因子載荷矩陣的第i行的元素的平方和。記為

image.png

b. 所有的公共因子與特殊因子對(duì)變量 Xi 的貢獻(xiàn)和為1逼龟。

image.png

3.3.3 公共因子FJ方法貢獻(xiàn)gi2的統(tǒng)計(jì)意義【豎著求和】

image.png

3.4因子分析三個(gè)步驟

a. 確定因子載荷
b. 因子旋轉(zhuǎn)
c. 計(jì)算因子得分

3.5因子旋轉(zhuǎn)

3.5.1旋轉(zhuǎn)的目的

a. 尋找簡單結(jié)構(gòu)的載荷矩陣：載荷矩陣A的所有元素都接近0或±1评凝，則模型的公共因子就易于解釋。
b. 如果各主因子的典型代表變量不突出审轮，就需要進(jìn)行旋轉(zhuǎn)使因子載荷矩陣中載荷的絕對(duì)值向0和1兩個(gè)方向分化肥哎。

3.5.2旋轉(zhuǎn)的方法

a.意義：對(duì)公共因子作正交旋轉(zhuǎn)相當(dāng)于對(duì)載荷矩陣 A 作一正交變換，右乘正交矩陣 T 疾渣，使 A* = AT 能有更鮮明的實(shí)際意義篡诽。
b.幾何意義：是在 m 維空間上對(duì)原因子軸作一剛性旋轉(zhuǎn)。因子旋轉(zhuǎn)不改變公共因子的共同度榴捡，這是因?yàn)?AA'=ATT'A'=AA'
c. 旋轉(zhuǎn)方法有：正交旋轉(zhuǎn)和斜交旋轉(zhuǎn)
d. 最普遍的是：最大方差旋轉(zhuǎn)法

3.5.3最大方差旋轉(zhuǎn)法：

a. 定義：通過坐標(biāo)變換使各個(gè)因子載荷的方差之和最大杈女。
b. 任何一個(gè)變量只在一個(gè)因子上有高貢獻(xiàn)率，而在其它因子上的載荷幾乎為0；
c. 任何一個(gè)因子只在少數(shù)變量上有高載荷,而在其它變量上的載荷幾乎為0达椰。

3.5.4因子分析的邏輯圖：

image.png

因子分析和主成分分析的區(qū)別和聯(lián)系

1.聯(lián)系

思想相同：降維
前提條件：各變量間必須有相關(guān)性翰蠢，否則各變量之間沒有共享信息

2.區(qū)別

主成分分析：將主成分表示成原始變量的的線性組合
因子分析：將原始變量表示成公共因子與特殊因子的線性組合，且公共因子不可觀測(cè)啰劲。
主成分分析：主成分個(gè)數(shù)與變量個(gè)數(shù)相同（實(shí)際中取前面若干幾個(gè)）
因子分析：公因子個(gè)數(shù)少于變量個(gè)數(shù)

最后編輯于：2020.07.06 12:01:31

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末梁沧，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子蝇裤，更是在濱河造成了極大的恐慌廷支，老刑警劉巖，帶你破解...
沈念sama閱讀 211,265評(píng)論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件栓辜，死亡現(xiàn)場離奇詭異恋拍，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)藕甩，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,078評(píng)論 2贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門施敢，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人狭莱，你說我怎么就攤上這事僵娃。” “怎么了贩毕？”我有些...
開封第一講書人閱讀 156,852評(píng)論 0贊 347
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵悯许，是天一觀的道長。經(jīng)常有香客問我辉阶，道長先壕，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,408評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任谆甜，我火速辦了婚禮垃僚，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘规辱。我一直安慰自己谆棺，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 65,445評(píng)論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布罕袋。她就那樣靜靜地躺著改淑，像睡著了一般。火紅的嫁衣襯著肌膚如雪浴讯。梳的紋絲不亂的頭發(fā)上朵夏，一...
開封第一講書人閱讀 49,772評(píng)論 1贊 290
城市分裂傳說
那天，我揣著相機(jī)與錄音榆纽，去河邊找鬼仰猖。笑死捏肢，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的饥侵。我是一名探鬼主播鸵赫，決...
沈念sama閱讀 38,921評(píng)論 3贊 406
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢(mèng)啊……” “哼躏升！你這毒婦竟也來了辩棒？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,688評(píng)論 0贊 266
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤膨疏，失蹤者是張志新（化名）和其女友劉穎盗温，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體成肘，經(jīng)...
沈念sama閱讀 44,130評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,467評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年斧蜕，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了双霍。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,617評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡批销，死狀恐怖洒闸，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情均芽，我是刑警寧澤丘逸，帶...
沈念sama閱讀 34,276評(píng)論 4贊 329
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站掀宋，受9級(jí)特大地震影響深纲，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜劲妙，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,882評(píng)論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一湃鹊、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧镣奋，春花似錦币呵、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,740評(píng)論 0贊 21
一樁弒父案余赢，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至哈垢，卻和暖如春妻柒，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背温赔。一陣腳步聲響...
開封第一講書人閱讀 31,967評(píng)論 1贊 265
情欲美人皮
我被黑心中介騙來泰國打工蛤奢，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留鬼癣，地道東北人。一個(gè)月前我還...
沈念sama閱讀 46,315評(píng)論 2贊 360
代替公主和親
正文我出身青樓啤贩，卻偏偏與公主長得像待秃，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子痹屹，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,486評(píng)論 2贊 348