LDA的原理是鼻疮,將帶上標簽的數(shù)據(jù)(點),通過投影的方法琳轿,投影到維度更低的空間中判沟,使得投影后的點,會形成按類別區(qū)分利赋,一簇一簇的情況,相同類別的點猩系,將會在投影后的空間中更接近媚送。
LDA的基本思想是:
找到一個最佳的判別矢量空間w,使得投影到該空間的樣本的類間離散度與類內(nèi)離散度比達到最大寇甸。
目標:先計算出w,至于計算后如何時候分類在得到結(jié)果后再說拿霉。
兩類線性判別分析
數(shù)據(jù):N個樣本數(shù)據(jù)吟秩,其中每個數(shù)據(jù)都是d維。即樣本x(i)為d維绽淘,d*1的列向量涵防,其中N1個數(shù)據(jù)是C1類,N2個數(shù)據(jù)是C2類沪铭。
目的:先求出w在對新的樣本x進行分類壮池,其中w為d*1的列向量。
類別i投影后的中心點為:
衡量類別i投影后杀怠,類別點之間的分散程度(方差)為:
最終我們可以得到一個下面的公式椰憋,表示LDA投影到w后的損失函數(shù):
帶入Si,將J(w)分母化為:
同樣的將J(w)分子化為:
這樣損失函數(shù)可以化成下面的形式:
將分母限制為長度為1(這是用拉格朗日乘子法一個很重要的技巧赔退,在下面將說的PCA里面也會用到橙依,如果忘記了,請復習一下高數(shù))硕旗,并作為拉格朗日乘子法的限制條件窗骑,帶入得到:
這樣的式子就是一個求特征值的問題了。
對于N(N>2)分類的問題漆枚,我就直接寫出下面的結(jié)論了:
這同樣是一個求特征值的問題慧域,我們求出的第i大的特征向量,就是對應的Wi了浪读。
那降維之后又如何根據(jù)y值來判別分類呢昔榴?取[y1,y2,...,yk]中最大的那個就是所屬的分類辛藻。
不清楚計算w后之后的分類。待探究互订。
常用的方法:1. one-vs-all方法訓練K個分類器(這個方法在綜合時不知道怎么處理吱肌?)
- 任意兩個分類配對訓練分離器最后得到k(k-1)/2個的二類分類器