LDA是一個分類模型宏蛉,可以處理多category的問題肯污。
模型是: (*),即在知道x值的情況下,屬于k類的可能性彩届,選擇最大的作為點x的類伪冰。其中。這個模型基于的統(tǒng)計理念非常常見樟蠕,就是先驗概率和后驗概率用全概率公式和Bayes定理互相推導(dǎo)贮聂。
(*) 中對所有k來說都一樣,所以選擇的重點在于寨辩。
如果我們假設(shè)是一個multivariate Gaussian,且對于所有k類吓懈,方差相同,則,
如果,那就把點分到class 1
如果
QDA(Quadratic Discriminant functions) :不同的class k,不耻警,所以,所以是一個quadratics的式子,所以決策邊界為quadratic
確定了模型之后甸怕,進(jìn)行參數(shù)估計甘穿,有最大似然估計可得
- 總共需要估計(K-1)*(p+1)個參數(shù)
這個模型跟適用于large and diverse set。
Discriminant Analysis最核心的點是假定k類有k個不同的distribution梢杭,然后計算在已知k的情況下温兼,對于待分類點x計算條件概率(Bayes Rule),然后選出條件概率最高的那一個類武契。
所以這個模型有很多的變通之處菌仁,例如南誊,我們一定要假定正態(tài)分布嗎零酪?不一定了讨,之所以傾向多維正態(tài)的原因是針對線性/Quadratic的決策邊界,正態(tài)的結(jié)果會更穩(wěn)定钧排,但其實是可以選擇別的分布假設(shè)的。
- 優(yōu)化
- Regularized Discriminant Analysis:
is the pooled covariance matrix as used in LDA, 這樣的話通過引入來實現(xiàn)LDA和QDA的轉(zhuǎn)化均澳,由CV來決定