線(xiàn)性判別分析(LDA)
Linear Discriminant Analysis
用途:數(shù)據(jù)預(yù)處理中的降維框往,分類(lèi)任務(wù)
歷史:Ronald A. Fisher在1936年提出了線(xiàn)性判別方法
目標(biāo):LDA關(guān)心的是能夠最大化類(lèi)間區(qū)分度的坐標(biāo)軸成分
將特征空間(數(shù)據(jù)集中的多維樣本)投影到一個(gè)維度更小的k維子空間中壳猜,同時(shí)保持區(qū)分類(lèi)別的信息
原理:
投影到維度更低的空間中裙戏,使得投影后的點(diǎn)滚躯,會(huì)形成按類(lèi)別區(qū)分枷莉,一簇一簇的情況谴咸,相同類(lèi)別的點(diǎn)旁钧,將會(huì)在投影后的空間中更接近方法;
監(jiān)督性:LDA是“有監(jiān)督”的师枣,它計(jì)算的是另一類(lèi)特定的方向
投影:找到更合適的分類(lèi)的空間
與PCA不同怪瓶,更關(guān)心分類(lèi)而不是方差
數(shù)學(xué)原理:
原始數(shù)據(jù):
變換數(shù)據(jù):
目標(biāo):找到該投影點(diǎn)?
LDA分類(lèi)的一個(gè)目標(biāo)是使得不同類(lèi)別之間的距離越遠(yuǎn)越好,同一類(lèi)別之中的距離越近越好
每類(lèi)樣例的均值:
投影后的均值:
投影后的兩類(lèi)樣本中心點(diǎn)盡量分離:
只要最大化J(w)就可以了践美?
X1的方向可以最大化J(w)洗贰,但是卻分的不好
散列值:樣本點(diǎn)的密集程度找岖,值越大,越分散敛滋,反之许布,越集中
同類(lèi)之間應(yīng)該越密集些:
目標(biāo)函數(shù):
散列值公式展開(kāi):
散列矩陣(scatter matrices):
類(lèi)內(nèi)散布矩陣Sw= S1+S2:
分子展開(kāi):
????稱(chēng)作類(lèi)間散布矩陣
最終目標(biāo)函數(shù):
分母進(jìn)行歸一化:如果分子、分母是都可以取任意值的绎晃,那就會(huì)使得有無(wú)窮解蜜唾,我們將分母限制為長(zhǎng)度為1
拉格朗日乘子法:
兩邊都乘以Sw的逆:(w就是矩陣的特征向量了)
主成分分析(PCA)
Principal Component Analysis
用途:降維中最常用的一種手段
目標(biāo):提取最有價(jià)值的信息(基于方差)主成分分析(PCA)
問(wèn)題:降維后的數(shù)據(jù)的意義?
向量的表示及基變換
內(nèi)積:
解釋?zhuān)?img class="math-inline" src="https://math.jianshu.com/math?formula=A%5Ccdot%20B%20%3D%20%5Cvert%20A%20%5Cvert%20%5Cvert%20B%20%5Cvert%20%5Ccos%20(%5Calpha%20)%20" alt="A\cdot B = \vert A \vert \vert B \vert \cos (\alpha ) " mathimg="1">
設(shè)向量B的模為1庶艾,則A與B的內(nèi)積值等于A(yíng)向B所在直線(xiàn)投影的矢量長(zhǎng)度
向量可以表示為(3,2)袁余,實(shí)際上表示線(xiàn)性組合:
基:(1,0)和(0,1)叫做二維空間中的一組基
基變換
基是正交的(即內(nèi)積為0,或直觀(guān)說(shuō)相互垂直)
要求:線(xiàn)性無(wú)關(guān)
變換:數(shù)據(jù)與一個(gè)基做內(nèi)積運(yùn)算落竹,結(jié)果作為第一個(gè)新的坐標(biāo)分量泌霍,然后與第二個(gè)基做內(nèi)積運(yùn)算,結(jié)果作為第二個(gè)新坐標(biāo)的分量
數(shù)據(jù)(3述召,2)映射到基中坐標(biāo):
兩個(gè)矩陣相乘的意義是將右邊矩陣中的每一列列向量變換到左邊矩陣中每一行行向量為基所表示的空間中去朱转;
協(xié)方差矩陣
方向:如何選擇這個(gè)方向(或者說(shuō)基)才能盡量保留最多的原始信息呢?
一種直觀(guān)的看法是:希望投影后的投影值盡可能分散
方差:
尋找一個(gè)一維基积暖,使得所有數(shù)據(jù)變換為這個(gè)基上的坐標(biāo)表示后藤为,方差值最大
協(xié)方差(假設(shè)均值為0時(shí)):
協(xié)方差:
如果單純只選擇方差最大的方向,后續(xù)方向應(yīng)該會(huì)和方差最大的方向接近重合夺刑。
解決方案:為了讓兩個(gè)字段盡可能表示更多的原始信息缅疟,我們是不希望它們之間存在(線(xiàn)性)相關(guān)性的;
協(xié)方差:可以用兩個(gè)字段的協(xié)方差表示其相關(guān)性
當(dāng)協(xié)方差為0時(shí)遍愿,表示兩個(gè)字段完全獨(dú)立存淫。為了讓協(xié)方差為0,選擇第二個(gè)基時(shí)沼填,只能在與第一個(gè)基正交的方向上選擇桅咆。因此最終選擇的兩個(gè)方向一定是正交的。
優(yōu)化目標(biāo)
將一組N維向量降為K維(K大于0坞笙,小于N)岩饼,目標(biāo)是選擇K個(gè)單位正交基,使原始數(shù)據(jù)變換到這組基上后薛夜,各字段兩兩間協(xié)方差為0籍茧,字段的方差則盡可能大
協(xié)方差矩陣:
矩陣對(duì)角線(xiàn)上的兩個(gè)元素分別是兩個(gè)字段的方差,而其它元素是a和b的協(xié)方差梯澜。
協(xié)方差矩陣對(duì)角化:即除對(duì)角線(xiàn)外的其它元素化為0寞冯,并且在對(duì)角線(xiàn)上將元素按大小從上到下排列
協(xié)方差矩陣對(duì)角化:
實(shí)對(duì)稱(chēng)矩陣:一個(gè)n行n列的實(shí)對(duì)稱(chēng)矩陣一定可以找到n個(gè)單位正交特征向量
實(shí)對(duì)稱(chēng)陣可進(jìn)行對(duì)角化:
根據(jù)特征值的從大到小,將特征向量從上到下排列,則用前K行組成的矩陣乘以原始數(shù)據(jù)矩陣X吮龄,就得到了我們需要的降維后的數(shù)據(jù)矩陣Y
PCA實(shí)例
數(shù)據(jù):
協(xié)方差矩陣:
特征值:
特征向量:
對(duì)角化:
降維: