本文最先發(fā)表在本人博客:http://www.gotoli.us/?p=1684
大清牛人曰:ML派坐落美利堅合眾山中赃承,百年來武學奇才輩出裸弦,隱然成江湖第一大名門正派麸俘,門內(nèi)有三套入門武功澈魄,曰:圖模型加圈采章,神經(jīng)網(wǎng)加層运嗜,優(yōu)化目標加正則。有童謠為證:熟練ML入門功悯舟,不會作文也會謅担租。今天就介紹一個PCA加先驗的工作。
主成分分析 (PCA)
PCA是常用的數(shù)據(jù)降唯模型抵怎。PCA處理的數(shù)據(jù)中心點為零點 (y_1+...,y_n)/n奋救,如果數(shù)據(jù)中心點不是零點,需要預處理數(shù)據(jù)y_i = y_i- (y_1+...,y_n)/n使得中心點為零點反惕。PCA降唯的思路:1)找到m個相互正交并且使得投影方差最大的方向(專業(yè)一點的說法是找到一組使得方差最大的基)尝艘,2)將k維的數(shù)據(jù)投影到這m個方向上,得到m維數(shù)據(jù)姿染。因為m會小于k背亥,數(shù)據(jù)的維度下降了。這里最難理解的部分就是“使得投影方差最大”了悬赏。
什么是“使得投影方差最大”狡汉?數(shù)據(jù)y在c方向的投影(標投影)為yTc,其中方向為單位向量||c||2=1闽颇。一堆數(shù)據(jù)y_1,y_2,....,y_n在c方向的投影為一堆數(shù):y_1Tc,y_2Tc,....,y_n^Tc轴猎。“使得投影方差最大”是使得這堆數(shù)的方差最大进萄。當然啦捻脖,PCA是找到m個方向锐峭,因此“使得投影方差最大”應該是使得m堆數(shù)的方差之和最大。
為什么要“使得投影方差最大”呢可婶?我們看下圖沿癞,如果要把圖中的數(shù)據(jù)壓縮到一維,我們是選擇右上方向還是左上方向呢矛渴?我們當然應該選右上方向! 因為右上方向上數(shù)據(jù)點散得比較開椎扬,壓縮之后不同的數(shù)據(jù)點也好區(qū)分;而左上方向上數(shù)據(jù)點比較密集具温,不同數(shù)據(jù)壓縮之后變相同的概率比較大蚕涤。在中心點為零點的情況下,“散得開不開”可以用這個方向上的投影方差刻畫铣猩。方差比較大揖铜,“散得比較開”;方差比較少达皿,“擠得密集”天吓。因此我們需要“使得投影方差最大”。同時峦椰,這也是為什么PCA需要預處理數(shù)據(jù)使得中心點為零點龄寞。
讓Y表示預處理之后的數(shù)據(jù),其中每一行代表一條k維度的數(shù)據(jù)汤功;C表示PCA要找的方向物邑,其中每一列代表一個方向。數(shù)據(jù)在不同方向的投影方差和等于||YC||_F2滔金,也就是等于Tr(CT Y^T YC)色解。因此PCA需要求解如下優(yōu)化問題。
上面的優(yōu)化問題利用了Y^T Y鹦蠕。中心點為零點的情況下冒签,Y^T Y為不同變量的協(xié)方差矩陣在抛。PCA模型也可以基于協(xié)方差矩陣來解釋钟病,這里就不介紹了,有興趣的同學可以看參考文獻一刚梭。求解上面的優(yōu)化問題蠻簡單的肠阱,因為Y^T Y前m個特征向量就是答案!F佣痢屹徘!一旦求得C,立得壓縮之后的數(shù)據(jù)為YC衅金。
海量多標記分類
介紹完P(guān)CA的基本知識噪伊,再來介紹一個PCA加先驗的工作簿煌。這個工作都應用在海量多標記分類任務上。在多標記分類問題鉴吹,一個實例同時擁有多個類別(標記)姨伟。比如一篇關(guān)注全球變暖的新聞報道既屬于科學類別,也屬于環(huán)境類別豆励。有些任務中標記數(shù)量特別巨大夺荒,我們稱之為海量多標記分類。比如多標記分類可以應用于標簽推薦任務中良蒸,標簽數(shù)量成千上萬技扼。用Y表示已經(jīng)去中心化之后的標記矩陣,其中每一行代表一個實例的標記情況嫩痰;用X表示實例剿吻,其中每一行代表一個實例的特征。
我們自然會想著把標記向量降維到一個低維向量始赎,然后學習一個從實例到低維向量的模型和橙,最后從低維向量還原出標記來(媽蛋!造垛!什么叫自然Dд小!五辽!09年才有人這么做好吧0彀摺!8硕骸)乡翅。作為最常用的數(shù)據(jù)降維方法,自然有人將PCA應用在這個問題上罪郊。但只用PCA是有缺陷的蠕蚜。PCA只會考慮怎么有效地將標記向量壓縮成低維向量,但低維向量是否適合學習就不管了悔橄。壓縮得到的低維向量和實例特征有可能沒有一點相關(guān)性靶累,導致很難學習到一個從實例到低維向量的模型。這時候我們就應該往PCA模型加點“容易學習”的先驗了癣疟。
Chen et al (2012) 假設(shè)實例到低維向量的模型是線性模型W挣柬,這時“容易學習”的先驗知識可以表示為
根據(jù)最小二乘法,我們求得W
將這個“容易學習”的先驗加入PCA睛挚,我們能夠得到
求解上面的優(yōu)化問題就可以將“容易學習”的先驗加入PCA邪蛔,使之適用于海量多標記分類任務。
參考文獻
http://www.cse.psu.edu/~rtc12/CSE586Spring2010/lectures/pcaLectureShort_6pp.pdf
Chen, Yao-Nan, and Hsuan-Tien Lin. "Feature-aware label space dimension reduction for multi-label classification." Advances in Neural Information Processing Systems. 2012.