PCA是無監(jiān)督的降維,降維后方差盡可能的大寿谴;
LDA是有監(jiān)督的降維锁右,希望分類后組內(nèi)方差小,組間方差大讶泰;
聚類咏瑟,降維;
1 PCA
原有的d維數(shù)據(jù)轉(zhuǎn)化為k維數(shù)據(jù)(d>k)痪署,新生成的k維數(shù)據(jù)盡可能多的包含原來d為數(shù)據(jù)的信息码泞。
1.1 去中心化
讓樣本的均值為0;
方便后去求取協(xié)方差矩陣惠桃;
這并不屬于數(shù)據(jù)預(yù)處理浦夷,因為數(shù)據(jù)預(yù)處理是對每一個特征維度進行處理的,而去中心化是針對每一個樣本辜王,這是PCA所必須的過程劈狐。
為什么要去中心化
1.2 求協(xié)方差矩陣
方差:單個隨機變量的離散程度;
協(xié)方差:兩個隨機變量的相似程度呐馆。
方差和協(xié)方差的一些區(qū)別
偏差是估計值與真實值之間的差距肥缔。
方差是描述預(yù)測值的變化范圍,離散程度汹来。
計算協(xié)方差矩陣
1.3 求協(xié)方差矩陣的特征值
尋找一個線性變換u,使uX收班,即降維后的新數(shù)據(jù)方差最大坟岔。
這里可以令u的模長為1.
根絕拉格朗日優(yōu)化后可知,S=λ摔桦;
那么最大化投影方差就是最大化原數(shù)據(jù)的協(xié)方差矩陣的特征值社付。
最佳的投影方向就是最大特征值對應(yīng)的特征向量。
1.4 選取前K大個特征值
選取特征值的特征向量組成投影矩陣U=[u1,u2,...,uk]邻耕。
UX即為投影后新樣本鸥咖。
1.5 總結(jié)
由于PCA是基于歐氏距離,因此對于線性不可分?jǐn)?shù)據(jù)無能為力兄世。
所以提出kernel PCA 啼辣。
2 LDA
分類,降維御滩。
希望降維后類間距離最大鸥拧,類內(nèi)距離最小党远。
引入兩個定義,類間散度Sb和類內(nèi)散度Sw住涉。
2.1 計算每個類別的中心
2.2 計算類間散度和類內(nèi)散度
2.3 求矩陣前K大特征值
2.4 根據(jù)特征向量得到投影矩陣
在計算類間散度和類內(nèi)散度的時候用到了類別信息麸锉,所以LDA是有監(jiān)督的降維。