姓名:白曉惠
學(xué)號:19021110335
轉(zhuǎn)載自:
https://blog.csdn.net/acs713/article/details/79470917
【嵌牛導(dǎo)讀】:線性判別分析 (LDA)是對費舍爾的線性鑒別方法(FLD)的歸納蜡秽,屬于監(jiān)督學(xué)習(xí)的方法。LDA和PCA都能夠達(dá)到對高維特征進(jìn)行壓縮的結(jié)果缆镣,二者各有應(yīng)用范圍和區(qū)別芽突。
【嵌牛鼻子】:線性判別分析? 主成分分析
【嵌牛提問】:線性判別分析的原理是什么,它與主成分分析有什么不同董瞻?
【嵌牛正文】
? ? ? ? 判別分析(Discriminant Analysis)是一種分類方法寞蚌,它通過一個已知類別的“訓(xùn)練樣本”來建立判別準(zhǔn)則,并通過預(yù)測變量來為未知類別的數(shù)據(jù)進(jìn)行分類钠糊。線性判別分析(Linear Discriminant Analysis挟秤,簡稱為LDA)是其中一種,也是模式識別的經(jīng)典算法眠蚂,在1996年由Belhumeur引入模式識別和人工智能領(lǐng)域煞聪。LDA以Bayes判別思想為基礎(chǔ),當(dāng)分類只有兩種且總體服從多元正態(tài)分布條件下逝慧,Bayes判別與Fisher判別昔脯、距離判別是等價的。
? ? ? ? LDA的基本思想是將高維的模式樣本投影到最佳鑒別矢量空間笛臣,以達(dá)到抽取分類信息和壓縮特征空間維數(shù)的效果云稚,投影后保證模式樣本在新的子空間有最大的類間距離和最小的類內(nèi)距離,即模式在該空間中有最佳的可分離性沈堡。因此静陈,它是一種有效的特征抽取方法。使用這種方法能夠使投影后模式樣本的類間散布矩陣最大诞丽,并且同時類內(nèi)散布矩陣最小鲸拥。就是說,它能夠保證投影后模式樣本在新的空間中有最小的類內(nèi)距離和最大的類間距離僧免,即模式在該空間中有最佳的可分離性刑赶。
? ? ? ? 在文章《主成分分析Principal component analysis(PCA)》中曾介紹過數(shù)據(jù)降維的主成分分析(PCA),LDA與PCA都是常用的降維方法懂衩,二者的區(qū)別在于:
出發(fā)思想不同撞叨。PCA主要是從特征的協(xié)方差角度,去找到比較好的投影方式浊洞,即選擇樣本點投影具有最大方差的方向牵敷;而LDA則更多的是考慮了分類標(biāo)簽信息,尋求投影后不同類別之間數(shù)據(jù)點距離更大化以及同一類別數(shù)據(jù)點距離最小化法希,即選擇分類性能最好的方向枷餐。
學(xué)習(xí)模式不同。PCA屬于無監(jiān)督式學(xué)習(xí)苫亦,因此大多場景下只作為數(shù)據(jù)處理過程的一部分毛肋,需要與其他算法結(jié)合使用奕锌,例如將PCA與聚類、判別分析村生、回歸分析等組合使用;LDA是一種監(jiān)督式學(xué)習(xí)方法饼丘,本身除了可以降維外趁桃,還可以進(jìn)行預(yù)測應(yīng)用,因此既可以組合其他模型一起使用肄鸽,也可以獨立使用卫病。
降維后可用維度數(shù)量不同。LDA降維后最多可生成C-1維子空間(分類標(biāo)簽數(shù)-1)典徘,因此LDA與原始維度數(shù)量無關(guān)蟀苛,只有數(shù)據(jù)標(biāo)簽分類數(shù)量有關(guān);而PCA最多有n維度可用逮诲,即最大可以選擇全部可用維度帜平。
從直接可視化的角度,以二維數(shù)據(jù)降維為例梅鹦,PCA和LDA的區(qū)別如下圖:
圖片發(fā)自簡書App
上圖左側(cè)是PCA的降維思想裆甩,它所作的只是將整組數(shù)據(jù)整體映射到最方便表示這組數(shù)據(jù)的坐標(biāo)軸上,映射時沒有利用任何數(shù)據(jù)內(nèi)部的分類信息齐唆。因此嗤栓,雖然PCA后的數(shù)據(jù)在表示上更加方便(降低了維數(shù)并能最大限度的保持原有信息),但在分類上也許會變得更加困難箍邮;上圖右側(cè)是LDA的降維思想茉帅,可以看到LDA充分利用了數(shù)據(jù)的分類信息,將兩組數(shù)據(jù)映射到了另外一個坐標(biāo)軸上锭弊,使得數(shù)據(jù)更易區(qū)分了(在低維上就可以區(qū)分堪澎,減少了運算量)。
線性判別分析LDA算法由于其簡單有效性在多個領(lǐng)域都得到了廣泛地應(yīng)用廷蓉,是目前機(jī)器學(xué)習(xí)全封、數(shù)據(jù)挖掘領(lǐng)域經(jīng)典且熱門的一個算法;但是算法本身仍然存在一些局限性:
1.當(dāng)樣本數(shù)量遠(yuǎn)小于樣本的特征維數(shù)桃犬,樣本與樣本之間的距離變大使得距離度量失效刹悴,使LDA算法中的類內(nèi)、類間離散度矩陣奇異攒暇,不能得到最優(yōu)的投影方向土匀,在人臉識別領(lǐng)域中表現(xiàn)得尤為突出
2.LDA不適合對非高斯分布的樣本進(jìn)行降維
3.LDA在樣本分類信息依賴方差而不是均值時,效果不好
4.LDA可能過度擬合數(shù)據(jù)
LDA的應(yīng)用應(yīng)用場景:
1.人臉識別中的降維或模式識別
2.根據(jù)市場宏觀經(jīng)濟(jì)特征進(jìn)行經(jīng)濟(jì)預(yù)測
3.根據(jù)市場或用戶不同屬性進(jìn)行市場調(diào)研
4.根據(jù)患者病例特征進(jìn)行醫(yī)學(xué)病情預(yù)測
LDA是是一個經(jīng)典的機(jī)器學(xué)習(xí)算法形用,它是判別分析中的線性分類器就轧,在很多應(yīng)用情況下會面臨數(shù)據(jù)稀疏的問題证杭,尤其是在面部識別的場景:數(shù)據(jù)的維度很可能大于數(shù)據(jù)的樣本量,甚至可能呈幾倍的差異妒御。此時解愤,LDA的預(yù)測準(zhǔn)確率會表現(xiàn)較差,當(dāng)維度數(shù)/樣本量達(dá)到4倍時乎莉,準(zhǔn)確率會只有50%左右送讲,解決方法之一是可以對LDA算法進(jìn)行收縮,Python的SKlearn中的LDA算法支持這一收縮規(guī)則惋啃。默認(rèn)情況下哼鬓,solver的值被設(shè)定為“svd”,這在大數(shù)據(jù)量下的表現(xiàn)很好边灭,但不支持收縮規(guī)則异希;當(dāng)面臨數(shù)據(jù)稀疏時,我們需要使用“l(fā)sqr”或“eigen”绒瘦,另外称簿,與之配合的是shrinkage參數(shù)需要設(shè)置成auto以便于算法自動調(diào)整收縮值,當(dāng)然你也可以自己憑借經(jīng)驗將值設(shè)定在0~1之間(越大收縮越厲害:0時不收縮惰帽,1時意味著對角線方差矩陣將被用作協(xié)方差矩陣值的估計)予跌。