PCA模型加先驗

本文最先發(fā)表在本人博客:http://www.gotoli.us/?p=1684

大清牛人曰:ML派坐落美利堅合眾山中赃承,百年來武學奇才輩出裸弦,隱然成江湖第一大名門正派麸俘,門內(nèi)有三套入門武功澈魄,曰:圖模型加圈采章,神經(jīng)網(wǎng)加層运嗜,優(yōu)化目標加正則。有童謠為證:熟練ML入門功悯舟,不會作文也會謅担租。今天就介紹一個PCA加先驗的工作。


主成分分析 (PCA)


PCA是常用的數(shù)據(jù)降唯模型抵怎。PCA處理的數(shù)據(jù)中心點為零點 (y_1+...,y_n)/n奋救,如果數(shù)據(jù)中心點不是零點,需要預處理數(shù)據(jù)y_i = y_i- (y_1+...,y_n)/n使得中心點為零點反惕。PCA降唯的思路:1)找到m個相互正交并且使得投影方差最大的方向(專業(yè)一點的說法是找到一組使得方差最大的基)尝艘,2)將k維的數(shù)據(jù)投影到這m個方向上,得到m維數(shù)據(jù)姿染。因為m會小于k背亥,數(shù)據(jù)的維度下降了。這里最難理解的部分就是“使得投影方差最大”了悬赏。

什么是“使得投影方差最大”狡汉?數(shù)據(jù)y在c方向的投影(標投影)為yTc,其中方向為單位向量||c||2=1闽颇。一堆數(shù)據(jù)y_1,y_2,....,y_n在c方向的投影為一堆數(shù):y_1Tc,y_2Tc,....,y_n^Tc轴猎。“使得投影方差最大”是使得這堆數(shù)的方差最大进萄。當然啦捻脖,PCA是找到m個方向锐峭,因此“使得投影方差最大”應該是使得m堆數(shù)的方差之和最大。

為什么要“使得投影方差最大”呢可婶?我們看下圖沿癞,如果要把圖中的數(shù)據(jù)壓縮到一維,我們是選擇右上方向還是左上方向呢矛渴?我們當然應該選右上方向! 因為右上方向上數(shù)據(jù)點散得比較開椎扬,壓縮之后不同的數(shù)據(jù)點也好區(qū)分;而左上方向上數(shù)據(jù)點比較密集具温,不同數(shù)據(jù)壓縮之后變相同的概率比較大蚕涤。在中心點為零點的情況下,“散得開不開”可以用這個方向上的投影方差刻畫铣猩。方差比較大揖铜,“散得比較開”;方差比較少达皿,“擠得密集”天吓。因此我們需要“使得投影方差最大”。同時峦椰,這也是為什么PCA需要預處理數(shù)據(jù)使得中心點為零點龄寞。


讓Y表示預處理之后的數(shù)據(jù),其中每一行代表一條k維度的數(shù)據(jù)汤功;C表示PCA要找的方向物邑,其中每一列代表一個方向。數(shù)據(jù)在不同方向的投影方差和等于||YC||_F2滔金,也就是等于Tr(CT Y^T YC)色解。因此PCA需要求解如下優(yōu)化問題。

上面的優(yōu)化問題利用了Y^T Y鹦蠕。中心點為零點的情況下冒签,Y^T Y為不同變量的協(xié)方差矩陣在抛。PCA模型也可以基于協(xié)方差矩陣來解釋钟病,這里就不介紹了,有興趣的同學可以看參考文獻一刚梭。求解上面的優(yōu)化問題蠻簡單的肠阱,因為Y^T Y前m個特征向量就是答案!F佣痢屹徘!一旦求得C,立得壓縮之后的數(shù)據(jù)為YC衅金。


海量多標記分類


介紹完P(guān)CA的基本知識噪伊,再來介紹一個PCA加先驗的工作簿煌。這個工作都應用在海量多標記分類任務上。在多標記分類問題鉴吹,一個實例同時擁有多個類別(標記)姨伟。比如一篇關(guān)注全球變暖的新聞報道既屬于科學類別,也屬于環(huán)境類別豆励。有些任務中標記數(shù)量特別巨大夺荒,我們稱之為海量多標記分類。比如多標記分類可以應用于標簽推薦任務中良蒸,標簽數(shù)量成千上萬技扼。用Y表示已經(jīng)去中心化之后的標記矩陣,其中每一行代表一個實例的標記情況嫩痰;用X表示實例剿吻,其中每一行代表一個實例的特征。

我們自然會想著把標記向量降維到一個低維向量始赎,然后學習一個從實例到低維向量的模型和橙,最后從低維向量還原出標記來(媽蛋!造垛!什么叫自然Dд小!五辽!09年才有人這么做好吧0彀摺!8硕骸)乡翅。作為最常用的數(shù)據(jù)降維方法,自然有人將PCA應用在這個問題上罪郊。但只用PCA是有缺陷的蠕蚜。PCA只會考慮怎么有效地將標記向量壓縮成低維向量,但低維向量是否適合學習就不管了悔橄。壓縮得到的低維向量和實例特征有可能沒有一點相關(guān)性靶累,導致很難學習到一個從實例到低維向量的模型。這時候我們就應該往PCA模型加點“容易學習”的先驗了癣疟。

Chen et al (2012) 假設(shè)實例到低維向量的模型是線性模型W挣柬,這時“容易學習”的先驗知識可以表示為


根據(jù)最小二乘法,我們求得W


將這個“容易學習”的先驗加入PCA睛挚,我們能夠得到

求解上面的優(yōu)化問題就可以將“容易學習”的先驗加入PCA邪蛔,使之適用于海量多標記分類任務。


參考文獻


http://www.cse.psu.edu/~rtc12/CSE586Spring2010/lectures/pcaLectureShort_6pp.pdf

Chen, Yao-Nan, and Hsuan-Tien Lin. "Feature-aware label space dimension reduction for multi-label classification." Advances in Neural Information Processing Systems. 2012.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末扎狱,一起剝皮案震驚了整個濱河市侧到,隨后出現(xiàn)的幾起案子勃教,更是在濱河造成了極大的恐慌,老刑警劉巖匠抗,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件荣回,死亡現(xiàn)場離奇詭異,居然都是意外死亡戈咳,警方通過查閱死者的電腦和手機心软,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來著蛙,“玉大人删铃,你說我怎么就攤上這事√けぃ” “怎么了猎唁?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長顷蟆。 經(jīng)常有香客問我诫隅,道長,這世上最難降的妖魔是什么帐偎? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任逐纬,我火速辦了婚禮,結(jié)果婚禮上削樊,老公的妹妹穿的比我還像新娘豁生。我一直安慰自己,他們只是感情好漫贞,可當我...
    茶點故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布甸箱。 她就那樣靜靜地躺著,像睡著了一般迅脐。 火紅的嫁衣襯著肌膚如雪芍殖。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天谴蔑,我揣著相機與錄音豌骏,去河邊找鬼。 笑死树碱,一個胖子當著我的面吹牛肯适,可吹牛的內(nèi)容都是我干的变秦。 我是一名探鬼主播成榜,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼蹦玫!你這毒婦竟也來了赎婚?” 一聲冷哼從身側(cè)響起刘绣,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎挣输,沒想到半個月后纬凤,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡撩嚼,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年停士,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片完丽。...
    茶點故事閱讀 38,064評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡恋技,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出逻族,到底是詐尸還是另有隱情蜻底,我是刑警寧澤,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布聘鳞,位于F島的核電站薄辅,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏抠璃。R本人自食惡果不足惜站楚,卻給世界環(huán)境...
    茶點故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望搏嗡。 院中可真熱鬧源请,春花似錦、人聲如沸彻况。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽纽甘。三九已至良蛮,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間悍赢,已是汗流浹背决瞳。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留左权,地道東北人皮胡。 一個月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像赏迟,于是被迫代替她去往敵國和親屡贺。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,802評論 2 345

推薦閱讀更多精彩內(nèi)容