LDA(線性判別分析)基本原理
LDA思想
LDA是監(jiān)督學習的降維、分類技術(shù)讨盒,可以用一句話概括思想:投影后類內(nèi)方差最小,類間方差最大步责。
如下圖所示返顺,給定數(shù)據(jù)樣例集,設法將樣例投影到直線上蔓肯,使得同類樣例投影點盡可能近创南、異類樣例的投影點盡可能遠離:
下圖的兩種投影方式,那一種滿足我們的標準省核?
右圖稿辙,原因是投影后,藍色和紅色數(shù)據(jù)各自較為集中气忠,且類別之間的距離明顯邻储。(左圖在邊界處數(shù)據(jù)混雜
LDA如何用來分類?
在對新的樣本進行分類時旧噪,將其投影到同樣的投影線上吨娜,再根據(jù)投影點的位置來確定樣本的類別。
LDA原理及流程
對于具體數(shù)據(jù)的實例
目標:求解投影向量? 淘钟,二維情況下?宦赠,?
?,shape:(2米母,m)表示樣本矩陣勾扭,即2個維度,m個樣本。每一列表示一個樣本铁瞒,每一行表示該樣本在這一維度上的取值妙色。例如:?中的第一列表示第一個樣本在第一個維度上的取值?,在第二個維度上的取值為?慧耍,以此類推身辨。
對第?個樣本?:?
圖中的y可計算,對于樣本在投影向量上的投影結(jié)果的值為:?芍碧,?可以理解為這條過原點直線的單位方向向量煌珊,?為的夾角泌豆。
給定兩個類別:
X1 : shape:(m,2)一般將樣本按行排列定庵,每列表示維度,可以理解為?的轉(zhuǎn)置,表示m個樣本洗贰,2兩個維度找岖,圖中每個點表示
X2 :? ? 描述同X1
均值向量?: shape:(2,1) 將m個樣本取每個維度的均值敛滋,按列排列,得到均值均值向量??
協(xié)方差矩陣?: ? shape:(2绎晃,2) (維度x維度)
樣本中心在直線上的投影? :shape:(1,2)x(2庶艾,1)= (1,1)常量
同類樣本投影點的協(xié)方差:?:shape:(1,2)x(2咱揍,2)x(2,1) = (1,1)常量 ,表示將同類樣本投影后颖榜,兩個維度的協(xié)方差。
對于n維情況煤裙,由于我們是多維向低維投影掩完,則此時投影到的低維空間就不是一條直線,而是一個超平面了硼砰。假設我們投影到的低維空間的維度為d且蓬,對應的基向量為?,基向量組成的矩陣為?
此時同類樣本投影點的協(xié)方差 ?? shape: (d,n)x(n,n)x(n,d)=(d,d) 题翰,表示投影后dxd的協(xié)方差矩陣恶阴。
算法流程總結(jié)
輸入:數(shù)據(jù)集豹障,?冯事,其中任意樣本?為n維向量,?為樣本對應的標簽沼填,降維到的維度d桅咆。
輸出:降維后的樣本集?
1) 計算類內(nèi)散度矩陣?
2) 計算類間散度矩陣?
3) 計算矩陣?
4) 計算?的最大的?個特征值對應的?個特征向量?,得到投影矩陣?
5) 對樣本集中的每一個樣本特征?括授,轉(zhuǎn)換為新的樣本?
6) 得到輸出樣本集?
實際上LDA除了可以用于降維以外坞笙,還可以用于分類。一個常見的LDA分類基本思想是假設各個類別的樣本數(shù)據(jù)符合高斯分布荚虚,這樣利用LDA進行投影后薛夜,可以利用極大似然估計計算各個類別投影數(shù)據(jù)的均值和方差,進而得到該類別高斯分布的概率密度函數(shù)版述。當一個新的樣本到來后梯澜,我們可以將它投影,然后將投影后的樣本特征分別帶入各個類別的高斯分布概率密度函數(shù)渴析,計算它屬于這個類別的概率晚伙,最大的概率對應的類別即為預測類別吮龄。
PCA、LDA區(qū)別
相同點:
1)兩者均可以對數(shù)據(jù)進行降維咆疗。
2)兩者在降維時均使用了矩陣特征分解的思想漓帚。
3)兩者都假設數(shù)據(jù)符合高斯分布
不同點
1.LDA是有監(jiān)督的降維方法,而PCA是無監(jiān)督的降維方法n
2.LDA降維最多降到類別數(shù)k-1的維數(shù)午磁,而PCA沒有這個限制尝抖。
3.LDA除了可以用于降維,還可以用于分類迅皇。
4.LDA選擇分類性能最好的投影方向昧辽,而PCA選擇樣本點投影具有最大方差的方向。這點可以從下圖形象的看出登颓,在某些數(shù)據(jù)分布下LDA比PCA降維較優(yōu)搅荞。
當然,某些某些數(shù)據(jù)分布下PCA比LDA降維較優(yōu)框咙,如下圖所示: