一.聚類分析
- 聚類的目的
1.間隔尺度:變量用連續(xù)的量來表示【常用】
2.有序尺度:有次序關(guān)系鞋囊,指標(biāo)有有序的等級(jí)來表示
3.名義尺度:指標(biāo)用一些類來表示,這些沒有等級(jí)和數(shù)量的關(guān)系
1.1聚類分析的類型
- Q型聚類:對(duì)樣品的聚類
- R型聚類:對(duì)變量的聚類
1.2聚類分析按研究方法分類
1.系統(tǒng)聚類法:由N類--1類
2.分解法:由1類---N類
3.K-均值法:事先在聚類過程中確定在K類瞎惫,適用于數(shù)據(jù)量大的數(shù)據(jù)
4.有序樣品的聚類:N個(gè)樣品排序溜腐,次序相鄰的樣品聚成一類
5.模糊聚類法:模糊數(shù)學(xué)的方法,多用于定性變量
6.加入法:樣品依次加入瓜喇,全部加入完得到聚類圖挺益。
1.4相似性度量
1.4.1 樣品相似性的度量【Q】
1.4.2 變量相似性的度量【R】
a.夾角余弦
b.相關(guān)系數(shù)
1.4.3類間距離
a.常用的類間距離定義有8種之多,與之相應(yīng)的系統(tǒng)聚類法 也有8種欠橘,分別為
a.中間距離法
b.最短距離法:類與類之間的距離最近兩個(gè)樣品的距離矩肩。
c.最長距離法:類與類之間的距離最遠(yuǎn)兩個(gè)樣品的距離∷嘈【先距離最短黍檩,后距離最遠(yuǎn)合并】
d.類平均法:兩類元素中任兩個(gè)樣品距離的平均。
e.重心法:兩個(gè)重心xp 和xq 的距離始锚。
f.可變類平均法
e.離差平方和法(Ward法): 該方法的基本思想來自于方差分析刽酱,如果分類正確,同 類樣品的離差平方和應(yīng)當(dāng)較小瞧捌,類與類的離差平方和較大棵里。 具體做法是先將 n 個(gè)樣品各自成一類,然后每次縮小一類姐呐,每 縮小一類殿怜,離差平方和就要增大,選擇使方差增加最小的兩 類合并曙砂,直到所有的樣品歸為一類為止头谜。
1.5最短距離法vs最長聚類法
a. 最短距離法的主要缺點(diǎn)是它有鏈接聚合的趨勢(shì),容易形 成一個(gè)比較大的類鸠澈,大部分樣品都被聚在一類中柱告,所以最短 距離法的聚類效果并不好,實(shí)際中不提倡使用笑陈。
b. 最長距離法克服了最短距離法鏈接聚合的缺陷际度,兩類合 并以后與其他類的距離是原來兩個(gè)類中的距離最大者,加大 了合并后的類與其他類的距離涵妥。
二.主成分分析
2.1.主成分分析的基本思想
a. 定義:主成分分析(Principal Component Analysis乖菱,簡記 PCA)是將多個(gè)指標(biāo)化為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法,通常我們把轉(zhuǎn)化成的綜合指標(biāo)稱為主成分。
b. 本質(zhì):降維
c. 表達(dá):主成分為原始變量的線性組合
d. 即信息量在空間降維以后信息量沒有發(fā)生改變窒所,所有主成分的方差之和與原始的方差之和
e. 多個(gè)變量之間有一定的相關(guān)性娜氏,利用原始變量 的線性組合形成幾個(gè)綜合指標(biāo)(主成分),在保留原始變量主要信息的前提下起到降維與簡化問題的作用墩新。
f. 累積貢獻(xiàn)率一般是85%以上
2.2主成分與原始變量之間有如下基本關(guān)系:
(1)每一個(gè)主成分都是各原始變量的線性組合
(2)主成分的數(shù)目大大少于原始變量的數(shù)目
(3)主成分保留了原始變量絕大多數(shù)信息
(4)各主成分之間互不相關(guān)
- 變量的變異性越大,說明它提供的信息量就越大
- 主成分分析將按照變量方差的大小順序挑選幾個(gè)主成分窟坐。
三.因子分析
3.1 因子分析的基礎(chǔ)理念
a. 基本目的:用少數(shù)幾個(gè)綜合因子去描述多個(gè)隨機(jī)變量之間的相關(guān)關(guān)系海渊。
b. 定義:多個(gè)變量————少數(shù)綜合因子(不存在的因子)
c. 顯在變量:原始變量X;潛在變量:因子F
d. X=AF+e【公共因子+特殊因子】
e. 應(yīng)用:因子分析主要用于相關(guān)性很強(qiáng)的多指標(biāo)數(shù)據(jù)的降維處理哲鸳。
f. 通過研究原始變量相關(guān)矩陣內(nèi)部 的依賴關(guān)系臣疑,把一些具有錯(cuò)綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個(gè)綜合因子的一種多變量統(tǒng)計(jì)分析方法。
g. 定義:原始的變量是可觀測(cè)的顯在變量徙菠,而綜合的因子是不可觀測(cè)的潛在變量讯沈,稱為因子。
3.2 因子分析的基本思想
i. 根據(jù)相關(guān)性大小把原始變量分組婿奔,使得同組內(nèi)的變量之間相關(guān)性較高缺狠,而不同組的變量間的相關(guān)性則較低。
ii. 公共因子:每組變量代表一個(gè)基本結(jié)構(gòu)萍摊,并用一個(gè)不可觀測(cè)的綜合變量表示挤茄。
iii. 對(duì)于所研究的某一具體問題,原始變量分解成兩部分:
- 一部分是少數(shù)幾個(gè)不可測(cè)的所謂公共因子的線性函數(shù)冰木。
- 另一部分是與公共因子無關(guān)的特殊因子穷劈。
3.2.1因子分析的研究關(guān)系
i. R 型因子分析——研究變量之間的相關(guān)關(guān)系
ii. Q 型因子分析——研究樣品之間的相關(guān)關(guān)系
3.3統(tǒng)計(jì)意義
3.3.1因子載荷aij的統(tǒng)計(jì)意義
a. 因子載荷 是第i個(gè)變量與第j個(gè)公共因子的相關(guān)系數(shù),絕對(duì)值越大踊沸,相關(guān)的密切程度越高歇终。
3.3.2 變量共同度hi的統(tǒng)計(jì)意義【橫著求和】
a. 變量 Xi 的共同度是因子載荷矩陣的第i行的元素的平方和。記為
b. 所有的公共因子與特殊因子對(duì)變量 Xi 的貢獻(xiàn)和為1逼龟。
3.3.3 公共因子FJ方法貢獻(xiàn)gi2的統(tǒng)計(jì)意義【豎著求和】
3.4因子分析三個(gè)步驟
a. 確定因子載荷
b. 因子旋轉(zhuǎn)
c. 計(jì)算因子得分
3.5因子旋轉(zhuǎn)
3.5.1旋轉(zhuǎn)的目的
a. 尋找簡單結(jié)構(gòu)的載荷矩陣:載荷矩陣A的所有元素都接 近0或±1评凝,則模型的公共因子就易于解釋。
b. 如果各主因子的典型代表變量不突出审轮,就需要進(jìn)行旋轉(zhuǎn)使因子載荷矩陣中載荷的絕對(duì)值向0和1兩個(gè)方向分化肥哎。
3.5.2旋轉(zhuǎn)的方法
a.意義:對(duì)公共因子作正交旋轉(zhuǎn)相當(dāng)于對(duì)載荷矩陣 A 作一正交變換 ,右乘正交矩陣 T 疾渣,使 A* = AT 能有更鮮明的實(shí)際意義篡诽。
b.幾何意義:是在 m 維空間上對(duì)原因子軸作一剛性旋轉(zhuǎn)。 因子旋轉(zhuǎn)不改變公共因子的共同度榴捡,這是因?yàn)?AA'=ATT'A'=AA'
c. 旋轉(zhuǎn)方法有:正交旋轉(zhuǎn)和斜交旋轉(zhuǎn)
d. 最普遍的是:最大方差旋轉(zhuǎn)法
3.5.3最大方差旋轉(zhuǎn)法:
a. 定義:通過坐標(biāo)變換使各個(gè)因子載荷的方差之和最大杈女。
b. 任何一個(gè)變量只在一個(gè)因子上有高貢獻(xiàn)率,而在 其它因子上的載荷幾乎為0;
c. 任何一個(gè)因子只在少數(shù)變量上有高載荷,而在其 它變量上的載荷幾乎為0达椰。
3.5.4因子分析的邏輯圖:
因子分析和主成分分析的區(qū)別和聯(lián)系
1.聯(lián)系
思想相同:降維
前提條件:各變量間必須有相關(guān)性翰蠢,否則各變量之間沒有共享信息
2.區(qū)別
主成分分析:將主成分表示成原始變量的的線性組合
因子分析:將原始變量表示成公共因子與特殊因子的線性組合,且公共因子不可觀測(cè)啰劲。
主成分分析:主成分個(gè)數(shù)與變量個(gè)數(shù)相同(實(shí)際中取前面若干幾個(gè))
因子分析:公因子個(gè)數(shù)少于變量個(gè)數(shù)