這里兩個矩陣,分別是用戶和標簽的關系桌肴,電影和標簽的關系皇筛。
我們得到兩張表,也可以理解兩個矩陣坠七,一個是電影和標簽水醋,一個是用戶和標簽,電影和標簽通過數(shù)據(jù)來表示電影和標簽的關系彪置。
通過這兩個矩陣我們可以得出用戶和電影的關系拄踪,我們如何看 Ana 對 M1 喜歡的程度,之前已經(jīng)介紹過我們忽略不喜歡的標簽的評分所以是 3
再看一看 betty 對 M1 喜歡程度為 1
而 Dana 既喜歡動作又喜歡喜劇所以是 4拳魁。
我們通過這兩個推薦矩陣就可以得出用戶和電影的矩陣如右側的圖
M1 和 M4 具有相同的評分惶桐。所以兩部電影為相同
從圖中可以看出 D 是 B 和 C 的和
M2 和 M3 的平均值為 M5 的值。說了這么多就是為了說明這兩個矩陣可以代替用戶和電影關系的矩陣潘懊,
需要矩陣來描述用戶對電影的關系耀盗,需要一個數(shù)組 1000 * 2000 的數(shù)組。通過這樣一個數(shù)組來描述用戶喜歡電影的關系卦尊。
這樣一來數(shù)據(jù)量達到了 2M 。
用推薦矩陣好處是可以減少數(shù)據(jù)量舌厨,用兩個數(shù)據(jù)數(shù)組來替換那個大數(shù)組岂却,也能起到同樣作用,好處通過兩個矩陣就來提到同樣效果。這樣大大減少數(shù)據(jù)量躏哩。
我們通過用兩個矩陣來定位署浩,獲取矩陣塊,所以這兩個推薦矩陣可以得出同樣效果扫尺。
有的人喜歡看圖來理解一些概念筋栋,我們可以通過圖形來表示關系。我們用圖來表示用戶和電影的關系正驻。
我們用標簽將兩者弊攘,用戶和電影,串起來的姑曙,然后表示用戶和電影間的關系襟交。
對比一下兩個,可以很明顯右側的圖中關系線相對減少多了伤靠。
我們在此從數(shù)據(jù)考察一下捣域,2000 * 1000 = 2M
再看一看這張圖,從數(shù)據(jù)上看也少了很多宴合。