奇異值分解(SVD)與主成分分析(PCA)

在線性代數(shù)中,奇異值分解(SVD)是實或復矩陣的分解,它在信號處理和統(tǒng)計學中有許多有用的應用蒙兰。[In linear algebra, the singular value decomposition (SVD) is a factorization of a real or complex matrix, with many useful applications in signal processing and statistics.]
形式上來說镜沽,mn階的實或復矩陣M的奇異值分解是形式如下的分解:[Formally, the singular value decomposition of an m×n real or complex matrix M is a factorization of the form]

[Singular Value Decomposition]

其中,U是一個m
m階的實或復單位陣桨吊,Σ是一個mn階的矩形對角陣威根,在對角線上有非負的實數(shù)值凤巨。V(V的共軛轉置)是一個nn的實或復單位陣。Σ的對角項Σij稱之為M的奇異值洛搀。U的m個列以及對應的V的n個列被分別稱為M的左奇異矢量和右奇異矢量敢茁。[where U is anΣ的對角項 m×m real or complex unitary matrix, Σ is an m×n rectangular diagonal matrix with nonnegative real numbers on the diagonal, and V (the conjugate transpose of V) is an n×n real or complex unitary matrix. The diagonal entries Σi,iof Σ are known as the singular values of M. The m columns of U and the n columns of V are called the left-singular vectors and right-singular vectors of M, respectively.]
奇異值分解和特征值分解密切相關,即:[The singular value decomposition and the eigendecomposition are closely related. Namely:]

  • M的左奇異矢量是MM的特征矢量姥卢。[The left-singular vectors of M are eigenvectors of MM.]
  • M的右奇異矢量是MM的特征矢量卷要。[The right-singular vectors of M are eigenvectors of MM.]
  • M的非零奇異值(可在Σ的對角項上找到)是MM以及MM特征值的非零平方根。[The non-zero-singular values of M (found on the diagonal entries of Σ) are the square roots of the non-zero eigenvalues of both MM* and MM*.]
    采用SVD的應用包括計算偽逆局陣独榴、數(shù)據(jù)的最小平方擬合僧叉、矩陣逼近以及確定矩陣的秩、range以及null space等棺榔。[Applications which employ the SVD include computing the pseudoinverse, least squares fitting of data, matrix approximation, and determining the rank, range and null space of a matrix.]

關于SVD的具體原理瓶堕,這里有一篇非常好的中文文章,細致地推導了整個過程——SVD原理詳解

主成分分析PCA

PCA(Principal Components Analysis)即主成分分析症歇,是圖像處理中經(jīng)常用到的降維方法郎笆,大家知道,我們在處理有關數(shù)字圖像處理方面的問題時忘晤,比如經(jīng)常用的圖像的查詢問題宛蚓,在一個幾萬或者幾百萬甚至更大的數(shù)據(jù)庫中查詢一幅相近的圖像。這時设塔,我們通常的方法是對圖像庫中的圖片提取響應的特征凄吏,如顏色,紋理闰蛔,sift痕钢,surf,vlad等等特征序六,然后將其保存任连,建立響應的數(shù)據(jù)索引,然后對要查詢的圖像提取相應的特征例诀,與數(shù)據(jù)庫中的圖像特征對比随抠,找出與之最近的圖片。這里繁涂,如果我們?yōu)榱颂岣卟樵兊臏蚀_率暮刃,通常會提取一些較為復雜的特征,如sift爆土,surf等椭懊,一幅圖像有很多個這種特征點,每個特征點又有一個相應的描述該特征點的128維的向量,設想如果一幅圖像有300個這種特征點氧猬,那么該幅圖像就有300*vector(128維)個背犯,如果我們數(shù)據(jù)庫中有一百萬張圖片,這個存儲量是相當大的盅抚,建立索引也很耗時漠魏,如果我們對每個向量進行PCA處理,將其降維為64維妄均,是不是很節(jié)約存儲空間爸隆?

主成分分析一般過程

特征抽取的目標是根據(jù)原始的d個特征的組合形成k個新的特征丰包,即將數(shù)據(jù)從d維空間映射到k維空間禁熏。在文本分析領域常用的降維方法是主成分分析(Principal Component Analysis, PCA)和奇異值分解(Singular Value Decomposition, SVD)邑彪。 在下文的敘述中瞧毙,將沿襲機器學習的常用符號,使用x表示一個列向量寄症,它是樣本x在d維空間中的點宙彪。而由n個樣本構成的數(shù)據(jù)集可以表示為一個d×n的矩陣XPCA PCA背后的數(shù)學基礎是特征值分析,即Σv=λv有巧,v是特征向量释漆,λ是特征值。PCA的目標是最大化數(shù)據(jù)間累積方差篮迎。PCA的一般過程是:

  • 去除平均值:means男图;
  • 計算X的協(xié)方差矩陣Σ;
  • 計算Σ的特征向量和特征值(特征向量用列向量v_d×1表示)柑潦;
  • 將特征值從大到小排序;
  • 保留最上面的k個特征向量(這k個特征向量保證了數(shù)據(jù)映射到特征值最大的特征向量的方向時峻凫,數(shù)據(jù)間的累積方差最大渗鬼,數(shù)據(jù)映射到第二大的特征向量時,數(shù)據(jù)間的累積方差次之荧琼,且特征向量之間保持正交)構成的特征向量矩陣V_d×k譬胎;
  • 將數(shù)據(jù)轉換到上述k個特征向量構建的新空間中(V^TX=A*_k×n + means,A是一個k×n的矩陣)。

我想用一個簡單的例子來說明主成分分析的能力:

主成分分析簡單實例(從博客上扣的圖)

關于SVD和PCA這里我只是通過做一個簡單的介紹命锄,如果大家感興趣可以參考以下更多的博文和資料:

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末堰乔,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子脐恩,更是在濱河造成了極大的恐慌镐侯,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件驶冒,死亡現(xiàn)場離奇詭異苟翻,居然都是意外死亡韵卤,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進店門崇猫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來沈条,“玉大人,你說我怎么就攤上這事诅炉±酰” “怎么了?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵涕烧,是天一觀的道長月而。 經(jīng)常有香客問我,道長澈魄,這世上最難降的妖魔是什么景鼠? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮痹扇,結果婚禮上铛漓,老公的妹妹穿的比我還像新娘。我一直安慰自己鲫构,他們只是感情好浓恶,可當我...
    茶點故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著结笨,像睡著了一般包晰。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上炕吸,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天伐憾,我揣著相機與錄音,去河邊找鬼赫模。 笑死树肃,一個胖子當著我的面吹牛,可吹牛的內容都是我干的瀑罗。 我是一名探鬼主播胸嘴,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼斩祭!你這毒婦竟也來了劣像?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤摧玫,失蹤者是張志新(化名)和其女友劉穎耳奕,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡吮铭,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年时迫,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片谓晌。...
    茶點故事閱讀 38,064評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡掠拳,死狀恐怖,靈堂內的尸體忽然破棺而出纸肉,到底是詐尸還是另有隱情溺欧,我是刑警寧澤,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布柏肪,位于F島的核電站姐刁,受9級特大地震影響,放射性物質發(fā)生泄漏烦味。R本人自食惡果不足惜聂使,卻給世界環(huán)境...
    茶點故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望谬俄。 院中可真熱鬧柏靶,春花似錦、人聲如沸溃论。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽钥勋。三九已至炬转,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間算灸,已是汗流浹背扼劈。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留菲驴,地道東北人荐吵。 一個月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像谢翎,于是被迫代替她去往敵國和親捍靠。 傳聞我的和親對象是個殘疾皇子沐旨,可洞房花燭夜當晚...
    茶點故事閱讀 42,802評論 2 345

推薦閱讀更多精彩內容