最近兩天都在看奇異值分解及其在推薦系統(tǒng)和圖像壓縮方面的應用疾呻,這部分知識比較散也比較難理解驾讲,看代碼不是很好懂腔彰,所以通過編學邊整理的方式幫助大腦理解這部分知識蝴簇。
奇異值分解是什么
奇異值分解(Singular Value Decomposition,SVD),是一種提取信息的方法串前。比如有一份記錄用戶關于餐館觀點的數(shù)據(jù),要對其進行處理分析实蔽,提取背后的因素荡碾,這個因素可能是餐館的類別,烹飪配料等局装,然后利用這些因素估計人們對沒有去過的餐館的看法坛吁,從而進行推薦,提取這些信息的方法就叫奇異值分解法铐尚。
奇異值分解的作用是什么
奇異值分解能夠簡約數(shù)據(jù)拨脉,去除噪聲和冗余數(shù)據(jù)。其實它說白了也是一種降維方法宣增,將數(shù)據(jù)映射到低維空間玫膀。看到這里其實就會想爹脾,它和主成分分析(PCA)有什么聯(lián)系或者差異呢帖旨?奇異值分解和主成分分析一樣,也是告訴我們數(shù)據(jù)中重要特征灵妨,奇異值是數(shù)據(jù)矩陣乘以該矩陣的轉(zhuǎn)置的特征值的平方根(Data*Data^T特征值的平方根)解阅。
奇異值分解的數(shù)學原理
前面說的關于奇異值分解是什么,其實是從應用角度上來說的泌霍,從數(shù)學的角度講货抄,它就是一種矩陣分解法。
什么是矩陣分解
顧名思義朱转,矩陣分解就是把一個大矩陣分解成易于處理的形式蟹地,這種形式可能是兩個或多個矩陣的乘積,就如同我們在代數(shù)中的因子分解藤为,這種因子分解在數(shù)學里便于我們計算锈津,賦予現(xiàn)實的含義,給一個真實的應用背景凉蜂,就能方便我們解決生活中遇到的問題琼梆。
SDV是如何分解矩陣的
SVD將原始的數(shù)據(jù)集矩陣Data分解成三個矩陣:U、Sigma窿吩、VT茎杂,如果原始矩陣是m行n列,那么U纫雁、Sigma和VT分別就是m行m列煌往、m行n列、n行n列。比較值得一提的是矩陣Sigma刽脖,該矩陣只有對角元素羞海,其他元素均為0,有一個慣例是:Sigma的對角元素是從大到小排列的曲管。這些對角元素就稱為奇異值却邓。在科學和工程中,一直存在一個普遍事實:在某個奇異值的數(shù)目r之后院水,其他的奇異值均置0腊徙,也就是我們僅保留r個重要特征,其余特征都是噪聲或者冗余特征檬某。那么問題來了撬腾,這個r到底是多少勒?如何選取呢恢恼?確定要保留的奇異值個數(shù)有很多啟發(fā)式的策略民傻,其中一個典型的做法就是保留矩陣90%的能量信息。為了計算能量信息场斑,將所有的奇異值求平均和饰潜,直到累加到總值的90%為止。另一個啟發(fā)式策略是當矩陣有上萬個奇異值時和簸,保留前面的2000個或3000個彭雾。其實這兩種方法要想為什么的話可能就涉及到繁雜的數(shù)學證明了,每一個為什么的地方都有可能有創(chuàng)新點锁保,留著有靈感的時候深入思考吧薯酝。
一個用例理解SVD
比如給了一些用戶和菜系,如下面的矩陣爽柒,這個矩陣的值代表了用戶對吃過的菜系的評分吴菠,沒吃過的評分為0,要給這些用戶推薦幾個他沒吃過的菜系浩村。
拿到這個問題做葵,最直觀的一個思路流程就是:計算菜系的相似度->結(jié)合評分->對沒吃過的菜系計算預測評分->預測評分排序->推薦前x個菜。
這也是簡單版本的推薦系統(tǒng)的程序流程心墅,計算相似度有歐式距離酿矢、皮爾遜相關系數(shù)和余弦相似度等常用計算方法。SVD做的改進就是將矩陣分解怎燥,從數(shù)據(jù)中構(gòu)建出一個主題空間瘫筐,再在該主題空間下計算相似度,提高了推薦效果(但是SVD會降低程序的速度铐姚,尤其是大規(guī)模數(shù)據(jù)集中策肝,這一點以后再談)。
在上例中,對數(shù)據(jù)矩陣進行SVD處理之众,會得到兩個奇異值拙毫。因此,有兩個概念或主題與此數(shù)據(jù)集相關聯(lián)棺禾,比如我們基于每個組的共同特征來命名缀蹄,可能是美式BBQ和日式食品這二維(這兩個維度是我們通過分析數(shù)據(jù)得到的,在生活中帘睦,我們一看那些菜就發(fā)現(xiàn)菜是有類型的,我們按照類型定相似度坦康,進行推薦竣付,奇異值是我生活的經(jīng)驗映射在數(shù)學空間的一種體現(xiàn),來自于數(shù)學角度的解釋滞欠,是巧合也是必然)古胆,如何將原始數(shù)據(jù)變換到這二維呢?V^T矩陣會將用戶映射到BBQ/日式食品空間筛璧,U矩陣會將菜系映射到BBQ/日式食品空間逸绎,在這個空間下求的相似度,然后進行后續(xù)流程夭谤,實現(xiàn)推薦棺牧。詳細的推薦系統(tǒng)實現(xiàn)會在下一篇中介紹。
在Python中如何使用SVD
Numpy線性代數(shù)庫中有一個實現(xiàn)SVD的方法朗儒,可以直接拿來用颊乘。具體SVD是如何用程序?qū)崿F(xiàn)的我打算專門寫一篇程序?qū)崿F(xiàn)的介紹,也包括比如特征值到底怎么求的等等方法醉锄。這里就簡介調(diào)用方式乏悄。
import numpy as np
def load_data():
return [[0,0,0,2,2],
[0,0,0,3,3],
[0,0,0,1,1],
[1,1,1,0,0],
[2,2,2,0,0],
[5,5,5,0,0],
[1,1,1,0,0]]
data = load_data()
u, sigma, vt = np.linalg.svd(data)
print(sigma)
運行結(jié)果如下:
[ 9.64365076e+00 5.29150262e+00 8.36478329e-16 6.91811207e-17
3.04963694e-34]
可以發(fā)現(xiàn)前兩個值比后三個值大的多,所以可以取這兩個奇異值恳不,把其余三個置0檩小。對于Sigma矩陣為什么長成行向量的樣子,是Python內(nèi)部的機制烟勋,為了節(jié)省空間规求,因為它除了對角線都是0,記著Sigma是個矩陣就好卵惦。
具體的推薦系統(tǒng)和詳細代碼解析我會在下一篇中介紹颓哮,還在理解和實驗當中。