線(xiàn)性判別分析(LDA)和主成分分析(PCA)

線(xiàn)性判別分析(LDA)

Linear Discriminant Analysis

用途:數(shù)據(jù)預(yù)處理中的降維框往,分類(lèi)任務(wù)

歷史:Ronald A. Fisher在1936年提出了線(xiàn)性判別方法

目標(biāo):LDA關(guān)心的是能夠最大化類(lèi)間區(qū)分度的坐標(biāo)軸成分

將特征空間(數(shù)據(jù)集中的多維樣本)投影到一個(gè)維度更小的k維子空間中壳猜,同時(shí)保持區(qū)分類(lèi)別的信息

原理:

投影到維度更低的空間中裙戏,使得投影后的點(diǎn)滚躯,會(huì)形成按類(lèi)別區(qū)分枷莉,一簇一簇的情況谴咸,相同類(lèi)別的點(diǎn)旁钧,將會(huì)在投影后的空間中更接近方法;


監(jiān)督性:LDA是“有監(jiān)督”的师枣,它計(jì)算的是另一類(lèi)特定的方向

投影:找到更合適的分類(lèi)的空間

與PCA不同怪瓶,更關(guān)心分類(lèi)而不是方差

數(shù)學(xué)原理:

原始數(shù)據(jù):

變換數(shù)據(jù):

目標(biāo):找到該投影點(diǎn)?y = \omega ^T x

LDA分類(lèi)的一個(gè)目標(biāo)是使得不同類(lèi)別之間的距離越遠(yuǎn)越好,同一類(lèi)別之中的距離越近越好

每類(lèi)樣例的均值:

投影后的均值:

投影后的兩類(lèi)樣本中心點(diǎn)盡量分離:

只要最大化J(w)就可以了践美?

X1的方向可以最大化J(w)洗贰,但是卻分的不好

散列值:樣本點(diǎn)的密集程度找岖,值越大,越分散敛滋,反之许布,越集中

同類(lèi)之間應(yīng)該越密集些:


目標(biāo)函數(shù):

散列值公式展開(kāi):

散列矩陣(scatter matrices):

類(lèi)內(nèi)散布矩陣Sw= S1+S2:

分子展開(kāi):

????稱(chēng)作類(lèi)間散布矩陣

最終目標(biāo)函數(shù):

分母進(jìn)行歸一化:如果分子、分母是都可以取任意值的绎晃,那就會(huì)使得有無(wú)窮解蜜唾,我們將分母限制為長(zhǎng)度為1

拉格朗日乘子法:

兩邊都乘以Sw的逆:(w就是矩陣S_{w} ^-1 S_ 的特征向量了)


主成分分析(PCA)

Principal Component Analysis

用途:降維中最常用的一種手段

目標(biāo):提取最有價(jià)值的信息(基于方差)主成分分析(PCA)

問(wèn)題:降維后的數(shù)據(jù)的意義?

向量的表示及基變換

內(nèi)積:(a_{1},a_{2},...,a_{n})^T*(b_{1},b_{2},...,b_{n})^T=a_{1}b_{1} + a_{2}b_{2} + ...+a_{n}b_{n}

解釋?zhuān)?img class="math-inline" src="https://math.jianshu.com/math?formula=A%5Ccdot%20B%20%3D%20%5Cvert%20A%20%5Cvert%20%5Cvert%20B%20%5Cvert%20%5Ccos%20(%5Calpha%20)%20" alt="A\cdot B = \vert A \vert \vert B \vert \cos (\alpha ) " mathimg="1">

設(shè)向量B的模為1庶艾,則A與B的內(nèi)積值等于A(yíng)向B所在直線(xiàn)投影的矢量長(zhǎng)度

向量可以表示為(3,2)袁余,實(shí)際上表示線(xiàn)性組合:x(1,0)^T +  y(0,1)^T

基:(1,0)和(0,1)叫做二維空間中的一組基

基變換

基是正交的(即內(nèi)積為0,或直觀(guān)說(shuō)相互垂直)

要求:線(xiàn)性無(wú)關(guān)

變換:數(shù)據(jù)與一個(gè)基做內(nèi)積運(yùn)算落竹,結(jié)果作為第一個(gè)新的坐標(biāo)分量泌霍,然后與第二個(gè)基做內(nèi)積運(yùn)算,結(jié)果作為第二個(gè)新坐標(biāo)的分量

數(shù)據(jù)(3述召,2)映射到基中坐標(biāo):

兩個(gè)矩陣相乘的意義是將右邊矩陣中的每一列列向量變換到左邊矩陣中每一行行向量為基所表示的空間中去朱转;

協(xié)方差矩陣

方向:如何選擇這個(gè)方向(或者說(shuō)基)才能盡量保留最多的原始信息呢?

一種直觀(guān)的看法是:希望投影后的投影值盡可能分散

方差:

尋找一個(gè)一維基积暖,使得所有數(shù)據(jù)變換為這個(gè)基上的坐標(biāo)表示后藤为,方差值最大

協(xié)方差(假設(shè)均值為0時(shí)):

協(xié)方差:

如果單純只選擇方差最大的方向,后續(xù)方向應(yīng)該會(huì)和方差最大的方向接近重合夺刑。

解決方案:為了讓兩個(gè)字段盡可能表示更多的原始信息缅疟,我們是不希望它們之間存在(線(xiàn)性)相關(guān)性的;

協(xié)方差:可以用兩個(gè)字段的協(xié)方差表示其相關(guān)性

當(dāng)協(xié)方差為0時(shí)遍愿,表示兩個(gè)字段完全獨(dú)立存淫。為了讓協(xié)方差為0,選擇第二個(gè)基時(shí)沼填,只能在與第一個(gè)基正交的方向上選擇桅咆。因此最終選擇的兩個(gè)方向一定是正交的。

優(yōu)化目標(biāo)

將一組N維向量降為K維(K大于0坞笙,小于N)岩饼,目標(biāo)是選擇K個(gè)單位正交基,使原始數(shù)據(jù)變換到這組基上后薛夜,各字段兩兩間協(xié)方差為0籍茧,字段的方差則盡可能大

協(xié)方差矩陣:

矩陣對(duì)角線(xiàn)上的兩個(gè)元素分別是兩個(gè)字段的方差,而其它元素是a和b的協(xié)方差梯澜。

協(xié)方差矩陣對(duì)角化:即除對(duì)角線(xiàn)外的其它元素化為0寞冯,并且在對(duì)角線(xiàn)上將元素按大小從上到下排列

協(xié)方差矩陣對(duì)角化:

實(shí)對(duì)稱(chēng)矩陣:一個(gè)n行n列的實(shí)對(duì)稱(chēng)矩陣一定可以找到n個(gè)單位正交特征向量

實(shí)對(duì)稱(chēng)陣可進(jìn)行對(duì)角化:

根據(jù)特征值的從大到小,將特征向量從上到下排列,則用前K行組成的矩陣乘以原始數(shù)據(jù)矩陣X吮龄,就得到了我們需要的降維后的數(shù)據(jù)矩陣Y

PCA實(shí)例

數(shù)據(jù):

協(xié)方差矩陣:

特征值:\lambda _{1} =2,\lambda _{2} =2/5

特征向量:

對(duì)角化:

降維:

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末檬某,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子螟蝙,更是在濱河造成了極大的恐慌,老刑警劉巖民傻,帶你破解...
    沈念sama閱讀 206,723評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件胰默,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡漓踢,警方通過(guò)查閱死者的電腦和手機(jī)牵署,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)喧半,“玉大人奴迅,你說(shuō)我怎么就攤上這事⊥荩” “怎么了取具?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,998評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀(guān)的道長(zhǎng)扁耐。 經(jīng)常有香客問(wèn)我暇检,道長(zhǎng),這世上最難降的妖魔是什么婉称? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,323評(píng)論 1 279
  • 正文 為了忘掉前任块仆,我火速辦了婚禮,結(jié)果婚禮上王暗,老公的妹妹穿的比我還像新娘悔据。我一直安慰自己,他們只是感情好俗壹,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,355評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布科汗。 她就那樣靜靜地躺著,像睡著了一般策肝。 火紅的嫁衣襯著肌膚如雪肛捍。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,079評(píng)論 1 285
  • 那天之众,我揣著相機(jī)與錄音拙毫,去河邊找鬼。 笑死棺禾,一個(gè)胖子當(dāng)著我的面吹牛缀蹄,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 38,389評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼缺前,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼蛀醉!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起衅码,我...
    開(kāi)封第一講書(shū)人閱讀 37,019評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤拯刁,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后逝段,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體垛玻,經(jīng)...
    沈念sama閱讀 43,519評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,971評(píng)論 2 325
  • 正文 我和宋清朗相戀三年奶躯,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了帚桩。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,100評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡嘹黔,死狀恐怖账嚎,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情儡蔓,我是刑警寧澤郭蕉,帶...
    沈念sama閱讀 33,738評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站浙值,受9級(jí)特大地震影響恳不,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜开呐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,293評(píng)論 3 307
  • 文/蒙蒙 一烟勋、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧筐付,春花似錦卵惦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,289評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至较解,卻和暖如春畜疾,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背印衔。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,517評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工啡捶, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人奸焙。 一個(gè)月前我還...
    沈念sama閱讀 45,547評(píng)論 2 354
  • 正文 我出身青樓瞎暑,卻偏偏與公主長(zhǎng)得像彤敛,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子了赌,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,834評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容