項(xiàng)目地址:https://github.com/Daya-Jin/ML_for_learner/blob/master/discriminant_analysis/LinearDiscriminantAnalysis.ipynb
原博客:https://daya-jin.github.io/2018/12/05/LinearDiscriminantAnalysis/
LDA
單變量二分類
假設(shè)現(xiàn)在有一個(gè)單變量二分類問(wèn)題询件,并且標(biāo)簽服從二項(xiàng)分布拿撩,特征條件概率服從等方差的高斯分布:
那么在給定樣本的條件下剩愧,這兩個(gè)類別發(fā)生的條件概率分別為:
兩者之間的對(duì)數(shù)幾率可以寫成:
由上式可以得到,LDA對(duì)于某一樣本的線性判別函數(shù)可寫成:
單變量多分類
不難得到恐锣,對(duì)于多分類問(wèn)題,LDA模型的預(yù)測(cè)輸出為:
其中為類分布概率舞痰。
多變量多分類
更一般的土榴,討論多變量的情況下,假如數(shù)據(jù)有
個(gè)特征响牛,在
的條件下玷禽,引入?yún)f(xié)方差矩陣赫段,特征條件概率可以寫成:
線性判別函數(shù)為:
LDA模型的預(yù)測(cè)輸出為:
其中各參數(shù)均由觀測(cè)數(shù)據(jù)估計(jì)得到:
-
,
為某個(gè)類別的樣本數(shù)矢赁,
為總樣本數(shù)
-
糯笙,
表示第
個(gè)類別的樣本集合
-
,
表示類別數(shù)
所以可以看出LDA就是一個(gè)簡(jiǎn)單的貝葉斯模型撩银,并沒(méi)有用到最大似然策略给涕。
QDA
LDA模型有一個(gè)前提假設(shè):數(shù)據(jù)的特征條件概率服從均值不等、方差相等的高斯分布额获,如果真實(shí)情況下方差不等呢稠炬?下圖展示了方差相等于方差不等的情況:
同理,可以得到QDA(quadratic discriminant analysis)的判別函數(shù):
QDA模型的預(yù)測(cè)輸出為:
其中各參數(shù)均由觀測(cè)數(shù)據(jù)估計(jì)得到:
-
咪啡,
為某個(gè)類別的樣本數(shù)首启,
為總樣本數(shù)
-
,
表示第
個(gè)類別的樣本集合
-
.
Fisher角度解析LDA
待補(bǔ)充撤摸,這部分沒(méi)太理解
LDA用于降維
對(duì)于個(gè)類別的數(shù)據(jù)毅桃,假定“物以類聚”的條件成立,那么對(duì)于
個(gè)中心准夷,在不影響分類器性能的條件下钥飞,我們至少可以將其映射到一個(gè)
維的空間。如對(duì)于兩個(gè)聚類中心衫嵌,我們可以將其映射到一條直線上并且還能將其分開读宙,對(duì)于
的情況,可以找到一個(gè)
維的映射空間楔绞。所以LDA算法還有一個(gè)用途就是作為有監(jiān)督的降維算法结闸,其核心思想在于將原數(shù)據(jù)映射到一個(gè)新空間,使得在新空間中各類的均值差盡量大酒朵,而每個(gè)類內(nèi)部的方差盡量小桦锄,那么在二分類的情況下很容易給出一個(gè)直觀的優(yōu)化目標(biāo):
為了將概念拓展到高維空間,首先給出幾個(gè)概念:
- 類間(between-class)散度矩陣:
结耀,其中
為類均值,
為數(shù)據(jù)均值
- 類內(nèi)(within-class)散度矩陣:
在Fisher提出的方法中匙铡,降維過(guò)程可以寫成:
其中為映射矩陣图甜,
為原數(shù)據(jù)。那么低維數(shù)據(jù)的類間方差為
黑毅,類內(nèi)方差為
,降維的優(yōu)化目標(biāo)就等同于最大化一個(gè)瑞利熵:
該優(yōu)化問(wèn)題還等價(jià)于:
使用拉格朗日數(shù)乘法解上述問(wèn)題:
假設(shè)可逆:
可以看到這就是一個(gè)特征值問(wèn)題病游。