奇異值分解(SVD)

最近兩天都在看奇異值分解及其在推薦系統(tǒng)和圖像壓縮方面的應用疾呻,這部分知識比較散也比較難理解驾讲,看代碼不是很好懂腔彰,所以通過編學邊整理的方式幫助大腦理解這部分知識蝴簇。


SVD思維導圖

奇異值分解是什么

奇異值分解(Singular Value Decomposition,SVD),是一種提取信息的方法串前。比如有一份記錄用戶關于餐館觀點的數(shù)據(jù),要對其進行處理分析实蔽,提取背后的因素荡碾,這個因素可能是餐館的類別,烹飪配料等局装,然后利用這些因素估計人們對沒有去過的餐館的看法坛吁,從而進行推薦,提取這些信息的方法就叫奇異值分解法铐尚。

奇異值分解的作用是什么

奇異值分解能夠簡約數(shù)據(jù)拨脉,去除噪聲和冗余數(shù)據(jù)。其實它說白了也是一種降維方法宣增,將數(shù)據(jù)映射到低維空間玫膀。看到這里其實就會想爹脾,它和主成分分析(PCA)有什么聯(lián)系或者差異呢帖旨?奇異值分解和主成分分析一樣,也是告訴我們數(shù)據(jù)中重要特征灵妨,奇異值是數(shù)據(jù)矩陣乘以該矩陣的轉(zhuǎn)置的特征值的平方根(Data*Data^T特征值的平方根)解阅。

奇異值分解的數(shù)學原理

前面說的關于奇異值分解是什么,其實是從應用角度上來說的泌霍,從數(shù)學的角度講货抄,它就是一種矩陣分解法。

什么是矩陣分解

顧名思義朱转,矩陣分解就是把一個大矩陣分解成易于處理的形式蟹地,這種形式可能是兩個或多個矩陣的乘積,就如同我們在代數(shù)中的因子分解藤为,這種因子分解在數(shù)學里便于我們計算锈津,賦予現(xiàn)實的含義,給一個真實的應用背景凉蜂,就能方便我們解決生活中遇到的問題琼梆。

SDV是如何分解矩陣的

SVD分解矩陣圖

SVD將原始的數(shù)據(jù)集矩陣Data分解成三個矩陣:U、Sigma窿吩、VT茎杂,如果原始矩陣是m行n列,那么U纫雁、Sigma和VT分別就是m行m列煌往、m行n列、n行n列。比較值得一提的是矩陣Sigma刽脖,該矩陣只有對角元素羞海,其他元素均為0,有一個慣例是:Sigma的對角元素是從大到小排列的曲管。這些對角元素就稱為奇異值却邓。在科學和工程中,一直存在一個普遍事實:在某個奇異值的數(shù)目r之后院水,其他的奇異值均置0腊徙,也就是我們僅保留r個重要特征,其余特征都是噪聲或者冗余特征檬某。那么問題來了撬腾,這個r到底是多少勒?如何選取呢恢恼?確定要保留的奇異值個數(shù)有很多啟發(fā)式的策略民傻,其中一個典型的做法就是保留矩陣90%的能量信息。為了計算能量信息场斑,將所有的奇異值求平均和饰潜,直到累加到總值的90%為止。另一個啟發(fā)式策略是當矩陣有上萬個奇異值時和簸,保留前面的2000個或3000個彭雾。其實這兩種方法要想為什么的話可能就涉及到繁雜的數(shù)學證明了,每一個為什么的地方都有可能有創(chuàng)新點锁保,留著有靈感的時候深入思考吧薯酝。

一個用例理解SVD

比如給了一些用戶和菜系,如下面的矩陣爽柒,這個矩陣的值代表了用戶對吃過的菜系的評分吴菠,沒吃過的評分為0,要給這些用戶推薦幾個他沒吃過的菜系浩村。


用戶和菜系

拿到這個問題做葵,最直觀的一個思路流程就是:計算菜系的相似度->結(jié)合評分->對沒吃過的菜系計算預測評分->預測評分排序->推薦前x個菜。
這也是簡單版本的推薦系統(tǒng)的程序流程心墅,計算相似度有歐式距離酿矢、皮爾遜相關系數(shù)和余弦相似度等常用計算方法。SVD做的改進就是將矩陣分解怎燥,從數(shù)據(jù)中構(gòu)建出一個主題空間瘫筐,再在該主題空間下計算相似度,提高了推薦效果(但是SVD會降低程序的速度铐姚,尤其是大規(guī)模數(shù)據(jù)集中策肝,這一點以后再談)。
在上例中,對數(shù)據(jù)矩陣進行SVD處理之众,會得到兩個奇異值拙毫。因此,有兩個概念或主題與此數(shù)據(jù)集相關聯(lián)棺禾,比如我們基于每個組的共同特征來命名缀蹄,可能是美式BBQ和日式食品這二維(這兩個維度是我們通過分析數(shù)據(jù)得到的,在生活中帘睦,我們一看那些菜就發(fā)現(xiàn)菜是有類型的,我們按照類型定相似度坦康,進行推薦竣付,奇異值是我生活的經(jīng)驗映射在數(shù)學空間的一種體現(xiàn),來自于數(shù)學角度的解釋滞欠,是巧合也是必然)古胆,如何將原始數(shù)據(jù)變換到這二維呢?V^T矩陣會將用戶映射到BBQ/日式食品空間筛璧,U矩陣會將菜系映射到BBQ/日式食品空間逸绎,在這個空間下求的相似度,然后進行后續(xù)流程夭谤,實現(xiàn)推薦棺牧。詳細的推薦系統(tǒng)實現(xiàn)會在下一篇中介紹。

在Python中如何使用SVD

Numpy線性代數(shù)庫中有一個實現(xiàn)SVD的方法朗儒,可以直接拿來用颊乘。具體SVD是如何用程序?qū)崿F(xiàn)的我打算專門寫一篇程序?qū)崿F(xiàn)的介紹,也包括比如特征值到底怎么求的等等方法醉锄。這里就簡介調(diào)用方式乏悄。

import numpy as np
def load_data():
    return [[0,0,0,2,2],
                [0,0,0,3,3],
                [0,0,0,1,1],
                [1,1,1,0,0],
                [2,2,2,0,0],
                [5,5,5,0,0],
                [1,1,1,0,0]]
data = load_data()
u, sigma, vt = np.linalg.svd(data)
print(sigma)

運行結(jié)果如下:

[  9.64365076e+00   5.29150262e+00   8.36478329e-16   6.91811207e-17
   3.04963694e-34]

可以發(fā)現(xiàn)前兩個值比后三個值大的多,所以可以取這兩個奇異值恳不,把其余三個置0檩小。對于Sigma矩陣為什么長成行向量的樣子,是Python內(nèi)部的機制烟勋,為了節(jié)省空間规求,因為它除了對角線都是0,記著Sigma是個矩陣就好卵惦。

具體的推薦系統(tǒng)和詳細代碼解析我會在下一篇中介紹颓哮,還在理解和實驗當中。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鸵荠,一起剝皮案震驚了整個濱河市冕茅,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖姨伤,帶你破解...
    沈念sama閱讀 211,042評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件哨坪,死亡現(xiàn)場離奇詭異,居然都是意外死亡乍楚,警方通過查閱死者的電腦和手機当编,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評論 2 384
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來徒溪,“玉大人忿偷,你說我怎么就攤上這事‰冢” “怎么了鲤桥?”我有些...
    開封第一講書人閱讀 156,674評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長渠概。 經(jīng)常有香客問我茶凳,道長,這世上最難降的妖魔是什么播揪? 我笑而不...
    開封第一講書人閱讀 56,340評論 1 283
  • 正文 為了忘掉前任贮喧,我火速辦了婚禮,結(jié)果婚禮上猪狈,老公的妹妹穿的比我還像新娘箱沦。我一直安慰自己,他們只是感情好雇庙,可當我...
    茶點故事閱讀 65,404評論 5 384
  • 文/花漫 我一把揭開白布饱普。 她就那樣靜靜地躺著,像睡著了一般状共。 火紅的嫁衣襯著肌膚如雪套耕。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,749評論 1 289
  • 那天峡继,我揣著相機與錄音冯袍,去河邊找鬼。 笑死碾牌,一個胖子當著我的面吹牛康愤,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播舶吗,決...
    沈念sama閱讀 38,902評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼征冷,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了誓琼?” 一聲冷哼從身側(cè)響起检激,我...
    開封第一講書人閱讀 37,662評論 0 266
  • 序言:老撾萬榮一對情侶失蹤肴捉,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后叔收,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體齿穗,經(jīng)...
    沈念sama閱讀 44,110評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年饺律,在試婚紗的時候發(fā)現(xiàn)自己被綠了窃页。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,577評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡复濒,死狀恐怖脖卖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情巧颈,我是刑警寧澤畦木,帶...
    沈念sama閱讀 34,258評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站洛二,受9級特大地震影響馋劈,放射性物質(zhì)發(fā)生泄漏攻锰。R本人自食惡果不足惜晾嘶,卻給世界環(huán)境...
    茶點故事閱讀 39,848評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望娶吞。 院中可真熱鬧垒迂,春花似錦、人聲如沸妒蛇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽绣夺。三九已至吏奸,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間陶耍,已是汗流浹背奋蔚。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留烈钞,地道東北人泊碑。 一個月前我還...
    沈念sama閱讀 46,271評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像毯欣,于是被迫代替她去往敵國和親馒过。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,452評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 一前言 特征值 奇異值 二奇異值計算 三PCA 1)數(shù)據(jù)的向量表示及降維問題 2)向量的表示及基變換 3)基向量 ...
    Arya鑫閱讀 10,514評論 2 43
  • 原文:http://blog.sciencenet.cn/blog-696950-699432.html 關于線性...
    MapleLeaff閱讀 1,301評論 0 4
  • 在線性代數(shù)中酗钞,奇異值分解(SVD)是實或復矩陣的分解腹忽,它在信號處理和統(tǒng)計學中有許多有用的應用来累。[In linear...
    王詩翔閱讀 7,597評論 0 6
  • 一、理論篇 上周說了PCA(主成分分析)的由來和應用留凭,這周要講SVD(奇異值分解)佃扼,不免問一句,它們二者有啥區(qū)別和...
    付劍飛閱讀 1,708評論 0 1
  • 一些基礎 關于正交矩陣 正交矩陣是指各行所形成的多個向量間任意拿出兩個,都能正交關系式蔼夜,正交矩陣的重要性質(zhì)是AT=...
    WZFish0408閱讀 5,933評論 0 1