降維算法2_LDA

LDA(線性判別分析)基本原理

LDA思想

LDA是監(jiān)督學習的降維、分類技術(shù)讨盒,可以用一句話概括思想:投影后類內(nèi)方差最小,類間方差最大步责。

如下圖所示返顺,給定數(shù)據(jù)樣例集,設法將樣例投影到直線上蔓肯,使得同類樣例投影點盡可能近创南、異類樣例的投影點盡可能遠離:


圖 1. LDA 二維示意圖

下圖的兩種投影方式,那一種滿足我們的標準省核?

圖 2. 兩種不同的投影方式??

右圖稿辙,原因是投影后,藍色和紅色數(shù)據(jù)各自較為集中气忠,且類別之間的距離明顯邻储。(左圖在邊界處數(shù)據(jù)混雜

LDA如何用來分類?

在對新的樣本進行分類時旧噪,將其投影到同樣的投影線上吨娜,再根據(jù)投影點的位置來確定樣本的類別。

LDA原理及流程



對于具體數(shù)據(jù)的實例

目標:求解投影向量\mathbf{w}? 淘钟,二維情況下?\mathbf{w}=\begin{pmatrix}w_{11}\\w_{12}\end{pmatrix}宦赠,\mathbf{X}=\begin{pmatrix}x_{11}&x_{21}&...&x_{m1}\\x_{12}&x_{22}&...&x_{m2}\end{pmatrix}?

X?,shape:(2米母,m)表示樣本矩陣勾扭,即2個維度,m個樣本。每一列表示一個樣本铁瞒,每一行表示該樣本在這一維度上的取值妙色。例如:\mathbf{x}?中的第一列表示第一個樣本在第一個維度上的取值?,在第二個維度上的取值為?慧耍,以此類推身辨。

對第?個樣本\mathbf{x}?:?\mathbf{x}=\begin{pmatrix}x_{i1}\\x_{i2} \end{pmatrix}

圖中的y可計算,對于樣本在投影向量上的投影結(jié)果的值為:y=\mathbf{w}^T\mathbf{x}=|\mathbf{w}|*|\mathbf{x}|*cos(\theta)=|\mathbf{x}|*cos(\theta)?芍碧,?\mathbf{w}可以理解為這條過原點直線的單位方向向量煌珊,?\theta\mathbf{w、x}的夾角泌豆。

給定兩個類別:

X1 : shape:(m,2)一般將樣本按行排列定庵,每列表示維度,可以理解為\mathbf{x}?的轉(zhuǎn)置,表示m個樣本洗贰,2兩個維度找岖,圖中每個點表示

X2 :? ? 描述同X1

均值向量\mu_i?: shape:(2,1) 將m個樣本取每個維度的均值敛滋,按列排列,得到均值均值向量??\mu_i

協(xié)方差矩陣\sum_i?: \frac{1}{m-1}X_i^TX_i? shape:(2绎晃,2) (維度x維度)

樣本中心在直線上的投影\mathbf{w}^T\mu_i? :shape:(1,2)x(2庶艾,1)= (1,1)常量

同類樣本投影點的協(xié)方差:\mathbf{w}^T\sum_i\mathbf{w}?:shape:(1,2)x(2咱揍,2)x(2,1) = (1,1)常量 ,表示將同類樣本投影后颖榜,兩個維度的協(xié)方差。

對于n維情況煤裙,由于我們是多維向低維投影掩完,則此時投影到的低維空間就不是一條直線,而是一個超平面了硼砰。假設我們投影到的低維空間的維度為d且蓬,對應的基向量為(w_1,w_2,...,w_d)?,基向量組成的矩陣為?\mathbf{w}_{(n,d)}

此時同類樣本投影點的協(xié)方差\mathbf{w}^T\sum_i\mathbf{w} ?? shape: (d,n)x(n,n)x(n,d)=(d,d) 题翰,表示投影后dxd的協(xié)方差矩陣恶阴。

程序

算法流程總結(jié)

輸入:數(shù)據(jù)集D={\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}}豹障,?冯事,其中任意樣本?x_i為n維向量,?y_i\in{\{C_1,C_2,...,C_k\}}為樣本對應的標簽沼填,降維到的維度d桅咆。

輸出:降維后的樣本集?D^`

1) 計算類內(nèi)散度矩陣?S_w

2) 計算類間散度矩陣?S_b

3) 計算矩陣?S_w^-S_b

4) 計算?的S_w^-S_b最大的?d個特征值對應的?個特征向量(w_1,w_2,...,w_d)?,得到投影矩陣?W

5) 對樣本集中的每一個樣本特征x_i?括授,轉(zhuǎn)換為新的樣本?z_i=W^Tx_i

6) 得到輸出樣本集?D^`={\{(z_1,y_1),(z_2,y_2),...,(z_m,y_m)\}}

實際上LDA除了可以用于降維以外坞笙,還可以用于分類。一個常見的LDA分類基本思想是假設各個類別的樣本數(shù)據(jù)符合高斯分布荚虚,這樣利用LDA進行投影后薛夜,可以利用極大似然估計計算各個類別投影數(shù)據(jù)的均值和方差,進而得到該類別高斯分布的概率密度函數(shù)版述。當一個新的樣本到來后梯澜,我們可以將它投影,然后將投影后的樣本特征分別帶入各個類別的高斯分布概率密度函數(shù)渴析,計算它屬于這個類別的概率晚伙,最大的概率對應的類別即為預測類別吮龄。

PCA、LDA區(qū)別

相同點:

1)兩者均可以對數(shù)據(jù)進行降維咆疗。

2)兩者在降維時均使用了矩陣特征分解的思想漓帚。

3)兩者都假設數(shù)據(jù)符合高斯分布

不同點

1.LDA是有監(jiān)督的降維方法,而PCA是無監(jiān)督的降維方法n

2.LDA降維最多降到類別數(shù)k-1的維數(shù)午磁,而PCA沒有這個限制尝抖。

3.LDA除了可以用于降維,還可以用于分類迅皇。

4.LDA選擇分類性能最好的投影方向昧辽,而PCA選擇樣本點投影具有最大方差的方向。這點可以從下圖形象的看出登颓,在某些數(shù)據(jù)分布下LDA比PCA降維較優(yōu)搅荞。


當然,某些某些數(shù)據(jù)分布下PCA比LDA降維較優(yōu)框咙,如下圖所示:

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末取具,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子扁耐,更是在濱河造成了極大的恐慌,老刑警劉巖块仆,帶你破解...
    沈念sama閱讀 216,651評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件悔据,死亡現(xiàn)場離奇詭異俗壹,居然都是意外死亡,警方通過查閱死者的電腦和手機绷雏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評論 3 392
  • 文/潘曉璐 我一進店門涎显,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人期吓,你說我怎么就攤上這事早歇。” “怎么了箭跳?”我有些...
    開封第一講書人閱讀 162,931評論 0 353
  • 文/不壞的土叔 我叫張陵谱姓,是天一觀的道長。 經(jīng)常有香客問我逝段,道長,這世上最難降的妖魔是什么帚桩? 我笑而不...
    開封第一講書人閱讀 58,218評論 1 292
  • 正文 為了忘掉前任嘹黔,我火速辦了婚禮,結(jié)果婚禮上郭蕉,老公的妹妹穿的比我還像新娘喂江。我一直安慰自己,他們只是感情好获询,可當我...
    茶點故事閱讀 67,234評論 6 388
  • 文/花漫 我一把揭開白布吉嚣。 她就那樣靜靜地躺著,像睡著了一般秉撇。 火紅的嫁衣襯著肌膚如雪秋泄。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,198評論 1 299
  • 那天啡捶,我揣著相機與錄音奸焙,去河邊找鬼与帆。 笑死,一個胖子當著我的面吹牛玄糟,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播逢并,決...
    沈念sama閱讀 40,084評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼砍聊,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了玻蝌?” 一聲冷哼從身側(cè)響起词疼,我...
    開封第一講書人閱讀 38,926評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎许饿,沒想到半個月后舵盈,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,341評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡翘贮,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,563評論 2 333
  • 正文 我和宋清朗相戀三年爆惧,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片芍耘。...
    茶點故事閱讀 39,731評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡斋竞,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出坝初,到底是詐尸還是另有隱情,我是刑警寧澤鳄袍,帶...
    沈念sama閱讀 35,430評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站重罪,受9級特大地震影響哀九,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜阅束,卻給世界環(huán)境...
    茶點故事閱讀 41,036評論 3 326
  • 文/蒙蒙 一围俘、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧界牡,春花似錦、人聲如沸宿亡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽圈匆。三九已至,卻和暖如春跃赚,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背纬傲。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評論 1 269
  • 我被黑心中介騙來泰國打工叹括, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人汁雷。 一個月前我還...
    沈念sama閱讀 47,743評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像面粮,于是被迫代替她去往敵國和親继低。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,629評論 2 354