1. 判別分析的基本思想
a. 目的:識別一個個體所屬類別
b. 適用:被解釋對象是非度量變量(nonmetric),解釋變量是度量變量;分組類型2組以上哪廓,每組樣品>1为肮。
c. 應用:歸類叉钥、預測
d. 判別分析與聚類分析:
i. 聚類分析前,我們并不知道應該分幾類篙贸,分類工作投队;
ii. 判別分析時,樣品的分類已事先確定歉秫,需要利用訓練樣 本建立判別準則蛾洛,對新樣品所屬類別進行判定,歸類工作雁芙。
2. 判別分析的三大假設:
a. 假設1:每一個判別變量(解釋變量)不能是其他判別變量的線性組合轧膘。避免多重共線性問題。
b. 假設2:如果采用線性判別函數(shù)兔甘,還要求各組變量協(xié)方差矩陣相等----線性判別函數(shù)使用起來最方便谎碍、在實際 中使用最廣。
c. 假設3:各判別變量遵從多元正態(tài)分布洞焙,可精確的計算 顯著性檢驗值和歸屬概率蟆淀,不然計算概率不準。
- 核心思想:樣品和哪個總體距離最近,就判它屬哪個總體澡匪。
3. 距離判別
兩總體:
協(xié)方差相等/協(xié)方差不等
多總體:
協(xié)方差相等/協(xié)方差不等
3.2距離判別的小結:
優(yōu)點:
i. 距離判別只要求知道總體的特征量(即參數(shù))---均值和協(xié)差陣,不涉及總體的分布類型.
ii. 當參數(shù)未知時,就用樣本均值和 樣本協(xié)差陣來估計.
iii. 距離判別方法簡單,結論明確,是很實用的方法.
ii. 缺點
i. 該判別法與各總體出現(xiàn)的機會大小(先驗概率)完全無關
ii. 判別方法沒有考慮錯判造成的損失,這是不合理的.
4. 貝葉斯判別:
v. 貝葉斯判別的基本思想
i. 假定對研究對象已經有了一定的認識熔任,這種認識可以用先驗概率來描述,當取得樣本后唁情,就可以利用樣本來修正已有的 先驗概率分布疑苔,得到后驗概率分布,再通過后驗概率分布進 行各種統(tǒng)計推斷甸鸟。
ii. 貝葉斯判別屬于概率判別法惦费。
iii. 判別準則:
i. 個體歸屬某類的概率(后驗概率)最大
ii. 錯判總平均損失最小為標準。
vi. 貝葉斯判別的后驗概率最大
貝葉斯小結
i. 貝葉斯(Bayes)判別要變量服從正態(tài)分布類型抢韭。
ii. 薪贫、貝葉斯(Bayes)判別的判別準則是以個體歸屬某類的概率最大或錯判總平均損失最小為標準。彌補了 距離判別和費歇(Fisher)判別的缺點刻恭。
5. 費歇(Fisher)判別
5.1費歇(Fisher)判別核心思想:
i. 通過多維數(shù)據投影到一維度直線上瞧省,將k組m維數(shù)據投影到 某一個方向,使得投影后組與組之間盡可能地分開。而衡量組 與組之間是否分開的方法借助于一元方差分析的思想
ii. 費歇(Fisher)判別是一種確定性判別吠各。
5.2費歇(Fisher)判別小結:
i. 費歇(Fisher)判別對判別變量的分布類型并無要求臀突, 而貝葉斯(Bayes)判別要變量服從正態(tài)分布類型。因此贾漏, Fisher類判別較Bayes類判別簡單一些候学。
ii. 當兩個總體時,若它們的協(xié)方差矩陣相同纵散,則距離判 別和Fisher判別等價梳码。 當變量服從正態(tài)分布時隐圾,它們還 和Bayes判別等價。
iii. 與距離判別一樣掰茶,費歇判別與各總體出現(xiàn)的機會大小 (先驗概率)完全無關暇藏;也沒有考慮錯判造成的損失。
6. 逐步判別
6.1背景與意義
i. 目的:
如何從m個變量中挑選出對區(qū)分k個總體有顯 著判別能力的變量,來建立判別函數(shù),用以判別歸類濒蒋。
ii. 常見問題:
1.忽略主要的指標盐碱;
- 引入太多 的指標,計算量大又干擾分析沪伙。
iii. 定義:
凡是具有篩選變量能力的判別方法統(tǒng)稱為逐步判別法瓮顽。
6.2. 主要思想:
i. 保留判別能力顯著的變量
ii. 剔除判別能力不顯著的變量
6.3. 具體步驟:
i. 逐步篩選變量
i. 根據各變量對區(qū)分k個總體的判別能力的大小,利用向 前選入围橡、向后剔除或逐步篩選的方法來選擇區(qū)分k個總體的 最佳變量子集暖混。
ii. 判別歸類
i. 對已選出變量子集,使用三大判別方法(距離判別翁授、 Bayes判別拣播、Fisher判別)對樣品進行判別歸類。