降維算法之LDA(線性判別降維算法)--有監(jiān)督

? ? LDA在模式識別領(lǐng)域(比如人臉識別,艦艇識別等圖形圖像識別領(lǐng)域)中有非常廣泛的應(yīng)用会喝,因此我們有必要了解下它的算法原理其兴。??

? 不同于PCA方差最大化理論,LDA算法的思想是將數(shù)據(jù)投影到低維空間之后血筑,使得同一類數(shù)據(jù)盡可能的緊湊,不同類的數(shù)據(jù)盡可能的分散煎楣。因此云挟,LDA算法是一種有監(jiān)督的機器學(xué)習(xí)算法。同時转质,LDA有如下兩個假設(shè):(1)原始數(shù)據(jù)根據(jù)樣本均值進行分類。(2)不同類的數(shù)據(jù)擁有相同的協(xié)方差矩陣帖世。當(dāng)然休蟹,在實際情況中,不可能滿足以上兩個假設(shè)日矫。但是當(dāng)數(shù)據(jù)主要是由均值來區(qū)分的時候赂弓,LDA一般都可以取得很好的效果

1.算法流程

? ? (1)計算類內(nèi)散度矩陣S_哪轿

? ? (2)計算類間散度矩陣S_{w}

? ? (3)計算矩陣S_{w}^\- S_b

? ? (4)對矩陣S_{w}^\-   S_b 進行特征分解盈魁,計算最大的d個最大的特征值對應(yīng)的特征向量組成W。

? ? (5)計算投影后的數(shù)據(jù)點Y=W^TX

以上就是使用LDA進行降維的算法流程窃诉。實際上LDA除了可以用于降維以外杨耙,還可以用于分類。一個常見的LDA分類基本思想是假設(shè)各個類別的樣本數(shù)據(jù)符合高斯分布飘痛,這樣利用LDA進行投影后珊膜,可以利用極大似然估計計算各個累唄投影數(shù)據(jù)的均值和方差,進而得到該類別高斯分布的概率密度函數(shù)宣脉。當(dāng)一個新的樣本到來后车柠,我們可以將它投影,然后將投影后的樣本特征分別帶入各個類別的高斯分布概率密度函數(shù)塑猖,計算它屬于這個類別的概率竹祷,最大的概率對應(yīng)的類別即為預(yù)測類別。LDA應(yīng)用于分類現(xiàn)在似乎也不是那么流行羊苟。

2.discriminant_analysis.LinearDiscriminantAnalysis 分類 sklearn

????class sklearn.discriminant_analysis.LinearDiscriminantAnalysis(solver='svd', shrinkage=None, priors=None, n_components=None, store_covariance=False, tol=0.0001)

參數(shù):

(1)solver: str類型塑陵,默認(rèn)值為"svd",

? ? svd:使用奇異值分解求解蜡励,不用計算協(xié)方差矩陣猿妈,適用于特征數(shù)量很大的情形吹菱,無法使用參數(shù)收縮(shrinkage)。

? ? lsqr:最小平方QR分解彭则,可以結(jié)合shrinkage使用鳍刷。

? ? eigen:特征值分解,可以結(jié)合shrinkage使用俯抖。

?(2)shrinkage: str or float類型输瓜,默認(rèn)值為None

? ? 是否使用參數(shù)收縮

? ? None:不使用參數(shù)收縮

? ? auto:str,使用Ledoit-Wolf lemma

? ? 浮點數(shù):自定義收縮比例芬萍。

? ?(3)components:int類型尤揣,需要保留的特征個數(shù),小于等于n-1

屬性:

(1)covariances_:每個類的協(xié)方差矩陣柬祠,shape = [n_features, n_features]

(2)means_:類均值北戏,shape = [n_features, n_feateures]

(3)priors_:歸一化的先驗概率。

(4)rotations_:LDA分析得到的主軸漫蛔,shape = [n_features, n_component]

(5)scalings_:數(shù)組列表嗜愈,每個高斯分布的方差σ

3.優(yōu)缺點和特性

????特點:

? ? ? ? 降維之后的維數(shù)最多為類別數(shù)-1。所以當(dāng)數(shù)據(jù)維度很高莽龟,但是類別數(shù)少的時候蠕嫁,算法并不適用。LDA算法既可以用來降維毯盈,又可以用來分類剃毒。但是目前來說,主要還是用于降維搂赋。在我們進行圖像識別相關(guān)的數(shù)據(jù)分析時赘阀,LDA是一個有力的工具

? ?優(yōu)點:

? ?(1)LDA在樣本分類信息依賴均值而不是方差的時候脑奠,比PCA之類的算法較優(yōu)纤壁。

? ?(2)在降維過程中可以使用類別的先驗知識經(jīng)驗,而像PCA這樣的無監(jiān)督學(xué)習(xí)則無法使用類別先驗知識捺信。

? ? 缺點:

? ? (1)LDA不適合非高斯分布樣本進行降維酌媒,PCA也存在這個問題。

? ? (2)LDA降維最多降到類別數(shù)K-1的維數(shù)迄靠,如果我們降維的維度大于k-1秒咨,則不能使用LDA。當(dāng)然目前有一些LDA的進化版算法可以繞過這個問題掌挚。

? ? (3)LDA在樣本分類信息依賴方差而不是均值的時候雨席,降維效果不好

? ? (4)LDA可能過度擬合數(shù)據(jù)吠式。

4.LDA和PCA的區(qū)別

? ? 二者都有降維的作用陡厘。

1.左邊是PCA抽米,屬于無監(jiān)督方法,當(dāng)數(shù)據(jù)沒有標(biāo)簽時可以用它糙置。右邊是LDA云茸,屬于監(jiān)督學(xué)習(xí)方法“梗考慮了數(shù)據(jù)的分類信息标捺,這樣數(shù)據(jù)在低維空間上就可以分類了,減少了很多的運算量揉抵。

2.PCA主要是從特征的協(xié)方差角度考慮亡容,追求的是在降維之后能夠最大化保持?jǐn)?shù)據(jù)的內(nèi)在信息。它不考慮分類信息冤今,因此降低維度后闺兢,信息損失降到最低,但分類上可能會變得更加困難戏罢。LDA追求的是降維后的數(shù)據(jù)點盡可能容易被區(qū)分屋谭。降維后的樣本數(shù)據(jù)在新的維度空間有最大的類間距離和最小的類內(nèi)方差,數(shù)據(jù)在低維空間有最佳的可分離性帖汞。

3.PCA降維后的維度數(shù)目是和數(shù)據(jù)維度相關(guān)的,原始數(shù)據(jù)是n維凑术,那么PCA后維度為1翩蘸、2~n維。LDA后的維度數(shù)目是和類別的個數(shù)相關(guān)的淮逊,原始數(shù)據(jù)是n維催首,一共有C個類別,那么LDA后維度為1泄鹏、2~C-1維郎任。

4.PCA投影的坐標(biāo)系都是正交的LDA關(guān)注分類能力备籽,不保證投影到的坐標(biāo)系是正交的舶治。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市车猬,隨后出現(xiàn)的幾起案子霉猛,更是在濱河造成了極大的恐慌,老刑警劉巖珠闰,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件惜浅,死亡現(xiàn)場離奇詭異,居然都是意外死亡伏嗜,警方通過查閱死者的電腦和手機坛悉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進店門伐厌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人裸影,你說我怎么就攤上這事挣轨。” “怎么了空民?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵刃唐,是天一觀的道長。 經(jīng)常有香客問我界轩,道長画饥,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任浊猾,我火速辦了婚禮抖甘,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘葫慎。我一直安慰自己衔彻,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布偷办。 她就那樣靜靜地躺著艰额,像睡著了一般。 火紅的嫁衣襯著肌膚如雪椒涯。 梳的紋絲不亂的頭發(fā)上柄沮,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天,我揣著相機與錄音废岂,去河邊找鬼祖搓。 笑死,一個胖子當(dāng)著我的面吹牛湖苞,可吹牛的內(nèi)容都是我干的拯欧。 我是一名探鬼主播,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼财骨,長吁一口氣:“原來是場噩夢啊……” “哼镐作!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起隆箩,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤滑肉,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后摘仅,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體靶庙,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了六荒。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片护姆。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖掏击,靈堂內(nèi)的尸體忽然破棺而出卵皂,到底是詐尸還是另有隱情,我是刑警寧澤砚亭,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布灯变,位于F島的核電站,受9級特大地震影響捅膘,放射性物質(zhì)發(fā)生泄漏添祸。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一寻仗、第九天 我趴在偏房一處隱蔽的房頂上張望刃泌。 院中可真熱鬧,春花似錦署尤、人聲如沸耙替。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽俗扇。三九已至,卻和暖如春箕别,著一層夾襖步出監(jiān)牢的瞬間列另,已是汗流浹背收恢。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工雹嗦, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留冠跷,地道東北人爹凹。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓厨诸,卻偏偏與公主長得像,于是被迫代替她去往敵國和親禾酱。 傳聞我的和親對象是個殘疾皇子微酬,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,914評論 2 355

推薦閱讀更多精彩內(nèi)容