線性判別分析和主成分分析的原理和區(qū)別

姓名:白曉惠

學(xué)號:19021110335

轉(zhuǎn)載自:

https://blog.csdn.net/acs713/article/details/79470917

【嵌牛導(dǎo)讀】:線性判別分析 (LDA)是對費舍爾的線性鑒別方法(FLD)的歸納蜡秽,屬于監(jiān)督學(xué)習(xí)的方法。LDA和PCA都能夠達(dá)到對高維特征進(jìn)行壓縮的結(jié)果缆镣,二者各有應(yīng)用范圍和區(qū)別芽突。

【嵌牛鼻子】:線性判別分析? 主成分分析

【嵌牛提問】:線性判別分析的原理是什么,它與主成分分析有什么不同董瞻?

【嵌牛正文】

? ? ? ? 判別分析(Discriminant Analysis)是一種分類方法寞蚌,它通過一個已知類別的“訓(xùn)練樣本”來建立判別準(zhǔn)則,并通過預(yù)測變量來為未知類別的數(shù)據(jù)進(jìn)行分類钠糊。線性判別分析(Linear Discriminant Analysis挟秤,簡稱為LDA)是其中一種,也是模式識別的經(jīng)典算法眠蚂,在1996年由Belhumeur引入模式識別和人工智能領(lǐng)域煞聪。LDA以Bayes判別思想為基礎(chǔ),當(dāng)分類只有兩種且總體服從多元正態(tài)分布條件下逝慧,Bayes判別與Fisher判別昔脯、距離判別是等價的。

? ? ? ? LDA的基本思想是將高維的模式樣本投影到最佳鑒別矢量空間笛臣,以達(dá)到抽取分類信息和壓縮特征空間維數(shù)的效果云稚,投影后保證模式樣本在新的子空間有最大的類間距離和最小的類內(nèi)距離,即模式在該空間中有最佳的可分離性沈堡。因此静陈,它是一種有效的特征抽取方法。使用這種方法能夠使投影后模式樣本的類間散布矩陣最大诞丽,并且同時類內(nèi)散布矩陣最小鲸拥。就是說,它能夠保證投影后模式樣本在新的空間中有最小的類內(nèi)距離和最大的類間距離僧免,即模式在該空間中有最佳的可分離性刑赶。

? ? ? ? 在文章《主成分分析Principal component analysis(PCA)》中曾介紹過數(shù)據(jù)降維的主成分分析(PCA),LDA與PCA都是常用的降維方法懂衩,二者的區(qū)別在于:

出發(fā)思想不同撞叨。PCA主要是從特征的協(xié)方差角度,去找到比較好的投影方式浊洞,即選擇樣本點投影具有最大方差的方向牵敷;而LDA則更多的是考慮了分類標(biāo)簽信息,尋求投影后不同類別之間數(shù)據(jù)點距離更大化以及同一類別數(shù)據(jù)點距離最小化法希,即選擇分類性能最好的方向枷餐。

學(xué)習(xí)模式不同。PCA屬于無監(jiān)督式學(xué)習(xí)苫亦,因此大多場景下只作為數(shù)據(jù)處理過程的一部分毛肋,需要與其他算法結(jié)合使用奕锌,例如將PCA與聚類、判別分析村生、回歸分析等組合使用;LDA是一種監(jiān)督式學(xué)習(xí)方法饼丘,本身除了可以降維外趁桃,還可以進(jìn)行預(yù)測應(yīng)用,因此既可以組合其他模型一起使用肄鸽,也可以獨立使用卫病。

降維后可用維度數(shù)量不同。LDA降維后最多可生成C-1維子空間(分類標(biāo)簽數(shù)-1)典徘,因此LDA與原始維度數(shù)量無關(guān)蟀苛,只有數(shù)據(jù)標(biāo)簽分類數(shù)量有關(guān);而PCA最多有n維度可用逮诲,即最大可以選擇全部可用維度帜平。

從直接可視化的角度,以二維數(shù)據(jù)降維為例梅鹦,PCA和LDA的區(qū)別如下圖:

圖片發(fā)自簡書App

上圖左側(cè)是PCA的降維思想裆甩,它所作的只是將整組數(shù)據(jù)整體映射到最方便表示這組數(shù)據(jù)的坐標(biāo)軸上,映射時沒有利用任何數(shù)據(jù)內(nèi)部的分類信息齐唆。因此嗤栓,雖然PCA后的數(shù)據(jù)在表示上更加方便(降低了維數(shù)并能最大限度的保持原有信息),但在分類上也許會變得更加困難箍邮;上圖右側(cè)是LDA的降維思想茉帅,可以看到LDA充分利用了數(shù)據(jù)的分類信息,將兩組數(shù)據(jù)映射到了另外一個坐標(biāo)軸上锭弊,使得數(shù)據(jù)更易區(qū)分了(在低維上就可以區(qū)分堪澎,減少了運算量)。

線性判別分析LDA算法由于其簡單有效性在多個領(lǐng)域都得到了廣泛地應(yīng)用廷蓉,是目前機(jī)器學(xué)習(xí)全封、數(shù)據(jù)挖掘領(lǐng)域經(jīng)典且熱門的一個算法;但是算法本身仍然存在一些局限性:

1.當(dāng)樣本數(shù)量遠(yuǎn)小于樣本的特征維數(shù)桃犬,樣本與樣本之間的距離變大使得距離度量失效刹悴,使LDA算法中的類內(nèi)、類間離散度矩陣奇異攒暇,不能得到最優(yōu)的投影方向土匀,在人臉識別領(lǐng)域中表現(xiàn)得尤為突出

2.LDA不適合對非高斯分布的樣本進(jìn)行降維

3.LDA在樣本分類信息依賴方差而不是均值時,效果不好

4.LDA可能過度擬合數(shù)據(jù)

LDA的應(yīng)用應(yīng)用場景:

1.人臉識別中的降維或模式識別

2.根據(jù)市場宏觀經(jīng)濟(jì)特征進(jìn)行經(jīng)濟(jì)預(yù)測

3.根據(jù)市場或用戶不同屬性進(jìn)行市場調(diào)研

4.根據(jù)患者病例特征進(jìn)行醫(yī)學(xué)病情預(yù)測

LDA是是一個經(jīng)典的機(jī)器學(xué)習(xí)算法形用,它是判別分析中的線性分類器就轧,在很多應(yīng)用情況下會面臨數(shù)據(jù)稀疏的問題证杭,尤其是在面部識別的場景:數(shù)據(jù)的維度很可能大于數(shù)據(jù)的樣本量,甚至可能呈幾倍的差異妒御。此時解愤,LDA的預(yù)測準(zhǔn)確率會表現(xiàn)較差,當(dāng)維度數(shù)/樣本量達(dá)到4倍時乎莉,準(zhǔn)確率會只有50%左右送讲,解決方法之一是可以對LDA算法進(jìn)行收縮,Python的SKlearn中的LDA算法支持這一收縮規(guī)則惋啃。默認(rèn)情況下哼鬓,solver的值被設(shè)定為“svd”,這在大數(shù)據(jù)量下的表現(xiàn)很好边灭,但不支持收縮規(guī)則异希;當(dāng)面臨數(shù)據(jù)稀疏時,我們需要使用“l(fā)sqr”或“eigen”绒瘦,另外称簿,與之配合的是shrinkage參數(shù)需要設(shè)置成auto以便于算法自動調(diào)整收縮值,當(dāng)然你也可以自己憑借經(jīng)驗將值設(shè)定在0~1之間(越大收縮越厲害:0時不收縮惰帽,1時意味著對角線方差矩陣將被用作協(xié)方差矩陣值的估計)予跌。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市善茎,隨后出現(xiàn)的幾起案子券册,更是在濱河造成了極大的恐慌,老刑警劉巖垂涯,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件烁焙,死亡現(xiàn)場離奇詭異,居然都是意外死亡耕赘,警方通過查閱死者的電腦和手機(jī)骄蝇,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來操骡,“玉大人九火,你說我怎么就攤上這事〔嵴校” “怎么了岔激?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長是掰。 經(jīng)常有香客問我虑鼎,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任炫彩,我火速辦了婚禮匾七,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘江兢。我一直安慰自己昨忆,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布杉允。 她就那樣靜靜地躺著扔嵌,像睡著了一般。 火紅的嫁衣襯著肌膚如雪夺颤。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天胁勺,我揣著相機(jī)與錄音世澜,去河邊找鬼。 笑死署穗,一個胖子當(dāng)著我的面吹牛寥裂,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播案疲,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼封恰,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了褐啡?” 一聲冷哼從身側(cè)響起诺舔,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎备畦,沒想到半個月后低飒,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡懂盐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年褥赊,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片莉恼。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡拌喉,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出俐银,到底是詐尸還是另有隱情尿背,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布捶惜,位于F島的核電站残家,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏售躁。R本人自食惡果不足惜坞淮,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一茴晋、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧回窘,春花似錦诺擅、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至酒觅,卻和暖如春撮执,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留勘高,地道東北人簿盅。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容