一文全面了解基于內(nèi)容的推薦算法

文章發(fā)布于公號(hào)【數(shù)智物語】?(ID:decision_engine),關(guān)注公號(hào)不錯(cuò)過每一篇干貨。

作者丨gongyouliu

來源 | 轉(zhuǎn)載自大數(shù)據(jù)與人工智能(ID:ai-big-data)

這篇文章我們主要關(guān)注的是基于內(nèi)容的推薦算法忘蟹,它也是非常通用的一類推薦算法,在工業(yè)界有大量的應(yīng)用案例蜻牢。

本文會(huì)從什么是基于內(nèi)容的推薦算法狭郑、算法基本原理、應(yīng)用場(chǎng)景铸题、基于內(nèi)容的推薦算法的優(yōu)缺點(diǎn)铡恕、算法落地需要關(guān)注的點(diǎn)等5個(gè)方面來講解。

希望讀者讀完可以掌握常用的基于內(nèi)容的推薦算法的實(shí)現(xiàn)原理丢间,并且可以基于本文的思路快速將基于內(nèi)容的推薦算法落地到真實(shí)業(yè)務(wù)場(chǎng)景中探熔。

01

什么是基于內(nèi)容的推薦算法

所謂基于內(nèi)容的推薦算法(Content-Based Recommendations)是基于標(biāo)的物相關(guān)信息、用戶相關(guān)信息及用戶對(duì)標(biāo)的物的操作行為來構(gòu)建推薦算法模型烘挫,為用戶提供推薦服務(wù)诀艰。這里的標(biāo)的物相關(guān)信息可以是對(duì)標(biāo)的物文字描述的metadata信息、標(biāo)簽饮六、用戶評(píng)論涡驮、人工標(biāo)注的信息等。用戶相關(guān)信息是指人口統(tǒng)計(jì)學(xué)信息(如年齡喜滨、性別捉捅、偏好、地域虽风、收入等等)棒口。用戶對(duì)標(biāo)的物的操作行為可以是評(píng)論、收藏辜膝、點(diǎn)贊无牵、觀看、瀏覽厂抖、點(diǎn)擊茎毁、加購(gòu)物車、購(gòu)買等∑咧基于內(nèi)容的推薦算法一般只依賴于用戶自身的行為為用戶提供推薦谭溉,不涉及到其他用戶的行為。

廣義的標(biāo)的物相關(guān)信息不限于文本信息橡卤,圖片扮念、語音、視頻等都可以作為內(nèi)容推薦的信息來源碧库,只不過這類信息處理成本較大柜与,不光是算法難度大、處理的時(shí)間及存儲(chǔ)成本也相對(duì)更高嵌灰。

基于內(nèi)容的推薦算法算是最早應(yīng)用于工程實(shí)踐的推薦算法弄匕,有大量的應(yīng)用案例,如今日頭條的推薦有很大比例是基于內(nèi)容的推薦算法沽瞭。

02

基于內(nèi)容的推薦算法實(shí)現(xiàn)原理

基于內(nèi)容的推薦算法的基本原理是根據(jù)用戶的歷史行為迁匠,獲得用戶的興趣偏好,為用戶推薦跟他的興趣偏好相似的標(biāo)的物秕脓,讀者可以直觀上從下圖理解基于內(nèi)容的推薦算法。

圖1:基于內(nèi)容的推薦算法示意圖

從上圖也可以看出儒搭,要做基于內(nèi)容的個(gè)性化推薦吠架,一般需要三個(gè)步驟,它們分別是:基于用戶信息及用戶操作行為構(gòu)建用戶特征表示搂鲫、基于標(biāo)的物信息構(gòu)建標(biāo)的物特征表示傍药、基于用戶及標(biāo)的物特征表示為用戶推薦標(biāo)的物,具體參考圖2:

圖2:基于內(nèi)容的個(gè)性化推薦的三個(gè)核心步驟

本節(jié)我們先簡(jiǎn)單介紹一下怎么基于上圖的步驟1魂仍、步驟2為用戶做推薦(即步驟3中給用戶做推薦的核心思想)拐辽,然后分別對(duì)這三個(gè)步驟加以說明,介紹每個(gè)步驟都有哪些方法和策略可供選擇擦酌。

01

基于用戶和標(biāo)的物特征為用戶推薦的核心思想

有了用戶特征和標(biāo)的物特征俱诸,我們?cè)趺唇o用戶做推薦呢?我認(rèn)為主要的推薦思路有如下三個(gè):

(1)基于用戶歷史行為記錄做推薦

我們需要事先計(jì)算標(biāo)的物之間的相似性赊舶,然后將用戶歷史記錄中的標(biāo)的物的相似標(biāo)的物推薦給用戶睁搭。

不管標(biāo)的物包含哪類信息,一般的思路是將標(biāo)的物特征轉(zhuǎn)化為向量化表示笼平,有了向量化表示园骆,我們就可以通過cosine余弦相似度計(jì)算兩個(gè)標(biāo)的物之間的相似度了。

(2)用戶和標(biāo)的物特征都用顯式的標(biāo)簽表示寓调,利用該表示做推薦

標(biāo)的物用標(biāo)簽來表示锌唾,那么反過來,每個(gè)標(biāo)簽就可以關(guān)聯(lián)一組標(biāo)的物夺英,那么根據(jù)用戶的標(biāo)簽表示晌涕,用戶的興趣標(biāo)簽就可以關(guān)聯(lián)到一組標(biāo)的物滋捶,這組通過標(biāo)簽關(guān)聯(lián)到的標(biāo)的物,就可以作為給用戶的推薦候選集渐排。這類方法就是所謂的倒排索引法炬太,是搜索業(yè)務(wù)通用的解決方案。

(3)用戶和標(biāo)的物嵌入到同一個(gè)向量空間驯耻,基于向量相似做推薦

當(dāng)用戶和標(biāo)的物嵌入到同一個(gè)向量空間中后亲族,我們就可以計(jì)算用戶和標(biāo)的物之間的相似度,然后按照標(biāo)的物跟用戶的相似度可缚,為用戶推薦相似度高的標(biāo)的物霎迫。還可以基于用戶向量表示計(jì)算用戶相似度,將相似用戶喜歡的標(biāo)的物推薦給該用戶帘靡,這時(shí)標(biāo)的物嵌入是不必要的知给。

講清楚了基于內(nèi)容的推薦的核心思想,那么下面我們分別講解怎么表示用戶特征描姚、怎么表示標(biāo)的物特征以及怎么為用戶做推薦涩赢。

02

構(gòu)建用戶特征表示

用戶的特征表示可以基于用戶對(duì)標(biāo)的物的操作行為(如點(diǎn)擊、購(gòu)買轩勘、收藏筒扒、播放等)構(gòu)建用戶對(duì)標(biāo)的物的偏好畫像,也可以基于用戶自身的人口統(tǒng)計(jì)學(xué)特征來表達(dá)绊寻。有了用戶特征表示花墩,我們就可以基于用戶特征為用戶推薦與他特征匹配的標(biāo)的物。構(gòu)建用戶特征的方法主要有如下5種:

(1)用戶行為記錄作為顯示特征

記錄用戶過去一段時(shí)間對(duì)標(biāo)的物的偏好澄步。拿視頻行業(yè)來說冰蘑,如果用戶過去一段時(shí)間看了A、B村缸、C三個(gè)視頻祠肥,同時(shí)可以根據(jù)每個(gè)視頻用戶觀看時(shí)長(zhǎng)占視頻總時(shí)長(zhǎng)的比例給用戶的行為打分,這時(shí)用戶的興趣偏好就可以記錄為

梯皿,其中S1搪柑、S2、S3分別是用戶對(duì)視頻A索烹、B工碾、C的評(píng)分。

該方案直接將用戶歷史操作過的標(biāo)的物作為用戶的特征表示百姓,在推薦時(shí)可以將與用戶操作過的標(biāo)的物相似的標(biāo)的物推薦給用戶渊额。

(2)顯式的標(biāo)簽特征

如果標(biāo)的物是有標(biāo)簽來描述的,那么這些標(biāo)簽可以用來表征標(biāo)的物。用戶的興趣畫像也可以基于用戶對(duì)標(biāo)的物的行為來打上對(duì)應(yīng)的標(biāo)簽旬迹。拿視頻推薦來舉例火惊,如果用戶過去看了科幻和恐怖兩類電影,那么恐怖奔垦、科幻就是用戶的偏好標(biāo)簽了屹耐。

每個(gè)標(biāo)的物的標(biāo)簽可以是包含權(quán)重的,而用戶對(duì)標(biāo)的物的操作行為也是有權(quán)重的椿猎,從而用戶的興趣標(biāo)簽是有權(quán)重的惶岭。

在具體推薦時(shí),可以將用戶的興趣標(biāo)簽關(guān)聯(lián)到的標(biāo)的物(具備該標(biāo)簽的標(biāo)的物)推薦給用戶犯眠。

(3)向量式的興趣特征

可以基于標(biāo)的物的信息將標(biāo)的物嵌入到向量空間中按灶,利用向量來表示標(biāo)的物,我們會(huì)在后面講解嵌入的算法實(shí)現(xiàn)方案筐咧。有了標(biāo)的物的向量化表示鸯旁,用戶的興趣向量就可以用他操作過的標(biāo)的物的向量的平均向量來表示了。

這里表示用戶興趣向量有很多種策略量蕊,可以基于用戶對(duì)操作過的標(biāo)的物的評(píng)分以及時(shí)間加權(quán)來獲取用戶的加權(quán)偏好向量铺罢,而不是直接取平均。另外残炮,我們也可以根據(jù)用戶操作過的標(biāo)的物之間的相似度韭赘,為用戶構(gòu)建多個(gè)興趣向量(比如對(duì)標(biāo)的物聚類,用戶在某一類上操作過的標(biāo)的物的向量均值作為用戶在這個(gè)類別上的興趣向量)吉殃,從而更好地表達(dá)用戶多方位的興趣偏好辞居。

有了用戶的興趣向量及標(biāo)的物的興趣向量楷怒,可以基于向量相似性計(jì)算用戶對(duì)標(biāo)的物的偏好度蛋勺,再基于偏好度大小來為用戶推薦標(biāo)的物。

(4)通過交互方式獲取用戶興趣標(biāo)簽

很多APP在用戶第一次注冊(cè)時(shí)讓用戶選擇自己的興趣標(biāo)簽鸠删,一旦用戶勾選了自己的興趣標(biāo)簽抱完,那么這些興趣標(biāo)簽就是系統(tǒng)為用戶提供推薦的原材料。具體推薦策略與上面的(3)一樣刃泡。

(5)用戶的人口統(tǒng)計(jì)學(xué)特征

用戶在登陸巧娱、注冊(cè)時(shí)提供的關(guān)于自身相關(guān)的信息、通過運(yùn)營(yíng)活動(dòng)用戶填寫的信息烘贴、通過用戶行為利用算法推斷得出的結(jié)論禁添,如年齡、性別桨踪、地域老翘、收入、愛好、居住地铺峭、工作地點(diǎn)等是非常重要的信息墓怀。基于這些關(guān)于用戶維度的信息卫键,我們可以將用戶特征用向量化表示出來傀履,向量的維度就是可獲取的用戶特征數(shù)。

有了用戶特征向量就可以計(jì)算用戶相似度莉炉,將相似用戶喜歡的標(biāo)的物推薦給該用戶钓账。

03

構(gòu)建標(biāo)的物特征表示

標(biāo)的物的特征,一般可以利用顯式的標(biāo)簽來表示呢袱,也可以利用隱式的向量(當(dāng)然one-hot編碼也是向量表示官扣,但是不是隱式的)來刻畫,向量的每個(gè)維度就是一個(gè)隱式的特征項(xiàng)羞福。前面提到某些推薦算法需要計(jì)算標(biāo)的物之間的相似度惕蹄,下面我們?cè)谥v標(biāo)的物的各種特征表示時(shí),也簡(jiǎn)單介紹一下標(biāo)的物之間的相似度計(jì)算方法治专。順便說一下卖陵,標(biāo)的物關(guān)聯(lián)標(biāo)的物的推薦方式也需要知道標(biāo)的物之間的相似度。下面我們從4個(gè)方面來詳細(xì)講解怎么構(gòu)建標(biāo)的物的特征表示张峰。

(1)標(biāo)的物包含標(biāo)簽信息

最簡(jiǎn)單的方式是將將標(biāo)簽按照某種序排列泪蔫,每個(gè)標(biāo)簽看成一個(gè)維度,那么每個(gè)標(biāo)的物就可以表示成一個(gè)N維的向量了(N是標(biāo)簽的個(gè)數(shù))喘批,如果標(biāo)的物包含某個(gè)標(biāo)簽撩荣,向量在相應(yīng)標(biāo)簽的分量上的值為1,否則為0饶深,即所謂的one-hot編碼餐曹。有可能N非常大(如視頻行業(yè),N可能是幾萬敌厘、甚至幾十萬上百萬)台猴,這時(shí)向量是稀疏向量(一般標(biāo)的物只有少量的幾個(gè)或者幾十個(gè)標(biāo)簽),我們可以采用稀疏向量的表示來優(yōu)化向量存儲(chǔ)和計(jì)算俱两,提升效率饱狂。有了標(biāo)的物基于標(biāo)簽的向量化表示,很容易基于cosine余弦計(jì)算相似度了宪彩。

實(shí)際上標(biāo)簽不是這么簡(jiǎn)單的休讳,有很多業(yè)務(wù)標(biāo)簽是分級(jí)的,比如電商(如淘寶)尿孔,有多級(jí)的標(biāo)簽(見下面圖3)俊柔,標(biāo)簽的層級(jí)關(guān)系形成一顆樹狀結(jié)構(gòu)磺樱,這時(shí)該怎么向量化呢?最簡(jiǎn)單的方案是只考慮葉子節(jié)點(diǎn)的標(biāo)簽(也是最低層級(jí)的標(biāo)簽)婆咸,基于葉子節(jié)點(diǎn)標(biāo)簽構(gòu)建向量表示竹捉。更復(fù)雜的方法,可以基于層級(jí)結(jié)構(gòu)構(gòu)建標(biāo)簽表示及計(jì)算標(biāo)的物相似度尚骄。

圖3:標(biāo)簽的層級(jí)表示關(guān)系

標(biāo)簽可以是通過算法獲取的块差,比如通過NLP技術(shù)從文本信息中提取關(guān)鍵詞作為標(biāo)簽。對(duì)于圖片/視頻倔丈,它們的描述信息(標(biāo)題等)可以提取標(biāo)簽憨闰,另外可以通過目標(biāo)檢測(cè)的方法從圖片/視頻中提取相關(guān)對(duì)象構(gòu)建標(biāo)簽。

標(biāo)簽可以是用戶打的需五,很多產(chǎn)品在用戶與標(biāo)的物交互時(shí)可以為標(biāo)的物打標(biāo)簽鹉动,這些標(biāo)簽就是標(biāo)的物的一種刻畫。標(biāo)簽也可是人工標(biāo)注的宏邮,像Netflix在做推薦時(shí)泽示,請(qǐng)了上萬個(gè)專家對(duì)視頻從上千個(gè)維度來打標(biāo)簽,讓標(biāo)簽具備非常高的質(zhì)量蜜氨⌒瞪福基于這么精細(xì)優(yōu)質(zhì)的標(biāo)簽做推薦,效果一定不錯(cuò)飒炎。很多行業(yè)的標(biāo)的物來源于第三方提供商埋哟,他們?cè)谌腭v平臺(tái)時(shí)會(huì)被要求按照某些規(guī)范填寫相關(guān)標(biāo)簽信息(比如典型的如電商)。

(2)標(biāo)的物具備結(jié)構(gòu)化的信息

有些行業(yè)標(biāo)的物是具備結(jié)構(gòu)化信息的郎汪,如視頻行業(yè)赤赊,一般會(huì)有媒資庫,媒資庫中針對(duì)每個(gè)節(jié)目會(huì)有標(biāo)題煞赢、演職員抛计、導(dǎo)演、標(biāo)簽耕驰、評(píng)分爷辱、地域等維度數(shù)據(jù)录豺,這類數(shù)據(jù)一般存在關(guān)系型數(shù)據(jù)庫中朦肘。這類數(shù)據(jù),我們可以將一個(gè)字段(也是一個(gè)特征)作為向量的一個(gè)維度双饥,這時(shí)向量化表示每個(gè)維度的值不一定是數(shù)值媒抠,但是形式還是向量化的形式,即所謂的向量空間模型(Vector Space Model咏花,簡(jiǎn)稱VSM)趴生。這時(shí)我們可以通過如下的方式計(jì)算兩個(gè)標(biāo)的物之間的相似度阀趴。

假設(shè)兩個(gè)標(biāo)的物的向量表示分別為:

這時(shí)這兩個(gè)標(biāo)的物的相似性可以表示為:

其中代表的是向量的兩個(gè)分量之間的相似度〔源遥可以采用Jacard相似度等各種方法計(jì)算兩個(gè)分量之間的相似度刘急。上面公式中還可以針對(duì)不同的分量采用不同的權(quán)重策略,見下面公式浸踩,其中是第t個(gè)分量(特征)的權(quán)重叔汁,具體權(quán)重的數(shù)值可以根據(jù)對(duì)業(yè)務(wù)的理解來人工設(shè)置,或者利用機(jī)器學(xué)習(xí)算法來訓(xùn)練學(xué)習(xí)得到检碗。

(3)包含文本信息的標(biāo)的物的特征表示

像今日頭條和手機(jī)百度APP這類新聞資訊或者搜索類APP据块,標(biāo)的物就是一篇篇的文章(其中會(huì)包含圖片或者視頻),文本信息是最重要的信息形式折剃,構(gòu)建標(biāo)的物之間的相似性有很多種方法另假。下面對(duì)常用的方法做一些講解說明。

a. 利用TF-IDF將文本信息轉(zhuǎn)化為特征向量

TF-IDF通過將所有文檔(即標(biāo)的物)分詞怕犁,獲得所有不同詞的集合(假設(shè)有M個(gè)詞)边篮,那么就可以為每個(gè)文檔構(gòu)建一個(gè)M維(每個(gè)詞就是一個(gè)維度)的向量,而該向量中某個(gè)詞所在維度的值可以通過統(tǒng)計(jì)每個(gè)詞在文檔中的重要性來衡量奏甫,這個(gè)重要性的度量就是TF-IDF苟耻。下面我們來詳細(xì)說明TF-IDF是怎么計(jì)算的。

TF即某個(gè)詞在某篇文檔中出現(xiàn)的頻次扶檐,用于衡量這個(gè)詞在文檔中的重要性凶杖,出現(xiàn)次數(shù)越多的詞重要性越大,當(dāng)然我們會(huì)提前將“的”款筑、“地”智蝠、“啊”等停用詞去掉,這些詞對(duì)構(gòu)建向量是沒有任何實(shí)際價(jià)值的奈梳,甚至是有害的杈湾。TF具體計(jì)算公式如下,tk?是第k個(gè)詞攘须,dj?是第j個(gè)文檔漆撞,下式中分子是?tk?在中出現(xiàn)的次數(shù),分母是?dj?中詞的總個(gè)數(shù)于宙。?

IDF代表的是某個(gè)詞在所有文檔中的“區(qū)分度”浮驳,如果某個(gè)詞只在少量幾個(gè)文檔中出現(xiàn),那么它包含的價(jià)值就是巨大的(所謂物以稀為貴)捞魁,如果某個(gè)詞在很多文檔中出現(xiàn)至会,那么它就不能很好地衡量(區(qū)分出)這個(gè)文檔。下面是IDF的計(jì)算公式谱俭,其中N是所有文檔的個(gè)數(shù)奉件,是包含詞的文檔個(gè)數(shù)宵蛀,這個(gè)公式剛好跟前面的描述是一致的:稀有的詞區(qū)分度大。


有了上面對(duì)TF和IDF的定義县貌,實(shí)際的TF-IDF就是上面兩個(gè)量的乘積:?


有了基于TF-IDF計(jì)算的標(biāo)的物的向量表示术陶,我們就很容易計(jì)算兩個(gè)標(biāo)的物之間的相似度了(cosine余弦相似度)。

b. 利用LDA算法構(gòu)建文章(標(biāo)的物)的主題

LDA算法是一類文檔主題生成模型煤痕,包含詞瞳别、主題、文檔三層結(jié)構(gòu)杭攻,是一個(gè)三層的貝葉斯概率模型祟敛。對(duì)于語料庫中的每篇文檔,LDA定義了如下生成過程(generativeprocess):

[1]?對(duì)每一篇文檔兆解,從主題分布中抽取一個(gè)主題馆铁;

[2]?從上述被抽到的主題所對(duì)應(yīng)的單詞分布中抽取一個(gè)單詞;

[3]?重復(fù)上述過程直至遍歷文檔中的每一個(gè)單詞。

我們通過對(duì)所有文檔進(jìn)行LDA訓(xùn)練,就可以構(gòu)建每篇文檔的主題分布双妨,從而構(gòu)建一個(gè)基于主題的向量(每個(gè)主題就是向量的一個(gè)分量,而值就是該主題的概率值)辣垒,這樣我們就可以利用該向量來計(jì)算兩篇文檔的相似度了。主題模型可以理解為一個(gè)降維過程印蔬,將文檔的詞向量表示降維成主題的向量表示(主題的個(gè)數(shù)是遠(yuǎn)遠(yuǎn)小于詞的個(gè)數(shù)的勋桶,所以是降維)。想詳細(xì)了解LDA的讀者可以看參考文獻(xiàn)1侥猬、2例驹。

c. 利用doc2vec算法構(gòu)建文本相似度

doc2vec或者叫做 paragraph2vec, sentence embeddings,是一種非監(jiān)督式算法退唠,可以獲得 句子鹃锈、段落、文章的稠密向量表達(dá)瞧预,它是 word2vec 的拓展屎债,2014年被Google的兩位大牛提出,并大量用于文本分類和情感分析中垢油。通過doc2vec學(xué)出句子盆驹、段落、文章的向量表示秸苗,可以通過計(jì)算向量之間距離來表達(dá)句子召娜、段落运褪、文章之間的相似性惊楼。

這里我們簡(jiǎn)單描述一下doc2vec的核心思想玖瘸。doc2vec受word2vec啟發(fā),由它推廣而來檀咙,我們先來簡(jiǎn)單解釋一下word2vec的思路雅倒。

word2vec通過學(xué)習(xí)一個(gè)唯一的向量表示每個(gè)詞,每個(gè)詞向量作為矩陣W中的一列(W是所有詞的詞向量構(gòu)成的矩陣)弧可,矩陣列可以通過詞匯表為每個(gè)詞做索引蔑匣,排在索引第一位的放到矩陣W的第一列,如此類推棕诵。將學(xué)習(xí)問題轉(zhuǎn)化為通過上下文詞序列中前幾個(gè)詞來預(yù)測(cè)下一個(gè)詞裁良。具體的模型框架如下圖:

圖4:word2vec算法框架,圖片來源于參考文獻(xiàn)5

簡(jiǎn)單來說,給定一個(gè)待訓(xùn)練的詞序列校套,詞向量模型通過極大化平均對(duì)數(shù)概率

將預(yù)測(cè)任務(wù)通過softmax變換看成一個(gè)多分類問題

上式中是詞i的歸一化的對(duì)數(shù)概率价脾,具體用下式來計(jì)算,其中U笛匙、b是參數(shù)侨把,h是通過詞向量的拼接或者平均來構(gòu)建的。

word2vec算法隨機(jī)初始化詞向量妹孙,通過隨機(jī)梯度下降法來訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型秋柄,最終得到每個(gè)詞的向量表示。

doc2vec類似地蠢正,每個(gè)段落/文檔表示為向量骇笔,作為矩陣D的一列,每個(gè)詞也表示為一個(gè)向量嚣崭,作為矩陣W中的一列蜘拉。將學(xué)習(xí)問題轉(zhuǎn)化為通過上下文詞序列中前幾個(gè)詞和段落/文檔來預(yù)測(cè)下一個(gè)詞。將段落/文檔和詞向量通過拼接或者平均來預(yù)測(cè)句子的下一個(gè)詞(下圖是通過“the”有鹿、“cat”旭旭、“sat”及段落id來預(yù)測(cè)下一個(gè)詞“on”)。在訓(xùn)練的時(shí)候我們固定上下文的長(zhǎng)度葱跋,用滑動(dòng)窗口的方法產(chǎn)生訓(xùn)練集持寄。段落向量/句向量在上下文中共享。

圖5:doc2vec模型結(jié)構(gòu)娱俺,圖片來源于參考文獻(xiàn)5

對(duì)算法原理感興趣的讀者可以看看參考文獻(xiàn)3稍味、4、5荠卷。工程實(shí)現(xiàn)上有很多開源框架有word2vec或者doc2vec的實(shí)現(xiàn)模庐,比如gensim中就有很好的實(shí)現(xiàn),作者公司就用gensim來做word2vec嵌入用于相似視頻的推薦業(yè)務(wù)中油宜,效果非常不錯(cuò)掂碱,讀者可以參考https://radimrehurek.com/gensim/models/doc2vec.html怜姿。

(4)圖片、音頻疼燥、或者視頻信息

如果標(biāo)的物包含的是圖片沧卢、音頻或者視頻信息,處理起來會(huì)更加復(fù)雜醉者。一種方法是利用它們的文本信息(標(biāo)題但狭、評(píng)論、描述信息撬即、利用圖像技術(shù)提取的字幕等文本信息等等立磁,對(duì)于音頻,可以通過語音識(shí)別轉(zhuǎn)化為文本)采用上面(3)的技術(shù)方案獲得向量化表示剥槐。對(duì)于圖像或者視頻息罗,也可以利用openCV中的PSNR和SSIM算法來表示視頻特征,也可以計(jì)算視頻之間的相似度才沧。另外一種可行的方法是采用圖像迈喉、音頻處理技術(shù)直接從圖像、視頻温圆、音頻中提取特征進(jìn)行向量化表示挨摸,從而容易計(jì)算出相似度∷昵福總之得运,圖片、圖像锅移、音頻都可以轉(zhuǎn)化為NLP問題或者圖像處理問題(見下面圖6)熔掺,通過圖像處理和NLP獲得對(duì)應(yīng)的特征表示,從而最終計(jì)算出相似度非剃,這里不詳細(xì)講解置逻。

圖6:視頻/圖片問題都可以轉(zhuǎn)化為NLP或圖像處理問題

04

為用戶做個(gè)性化推薦

有了上面用戶和標(biāo)的物的特征表示,剩下就是基于此為用戶做個(gè)性化推薦了备绽,一般有5種方法和策略券坞,下面我們來一一講解。這里的推薦就是完全個(gè)性化范式的推薦肺素,為每個(gè)用戶生成不一樣的推薦結(jié)果恨锚。

(1)采用跟基于物品的協(xié)同過濾類似的方式推薦

該方法采用基于用戶行為記錄的顯式特征表示用戶特征,通過將用戶操作過的標(biāo)的物最相似的標(biāo)的物推薦給用戶倍靡,算法原理跟基于物品的協(xié)同過濾類似猴伶,計(jì)算公式甚至是一樣的,但是這里計(jì)算標(biāo)的物相似度是基于標(biāo)的物的自身信息來計(jì)算的,而基于物品的協(xié)同過濾是基于用戶對(duì)標(biāo)的物的行為矩陣來計(jì)算的他挎。

用戶u對(duì)標(biāo)的物s的喜好度sim(u,s)可以采用如下公式計(jì)算筝尾,其中U是所有用戶操作過的標(biāo)的物的列表,是用戶u對(duì)標(biāo)的物的喜好度雇盖,是標(biāo)的物與s的相似度忿等。?

有了用戶對(duì)每個(gè)標(biāo)的物的相似度栖忠,基于相似度降序排列崔挖,就可以取topN推薦給用戶了。

除了采用上面的公式外庵寞,我們?cè)谕扑]時(shí)也可以稍作變化狸相,采用最近鄰方法(K-NearestNeighbor, KNN)。對(duì)于用戶操作/喜歡過的每個(gè)標(biāo)的物捐川,通過kNN找到最相似的k個(gè)標(biāo)的物脓鹃。??

其中是給用戶u的推薦,是標(biāo)的物最近鄰(最相似)的k個(gè)標(biāo)的物古沥。

(2)采用跟基于用戶協(xié)同過濾類似的方法計(jì)算推薦

如果我們獲得了用戶的人口統(tǒng)計(jì)學(xué)向量表示或者基于用戶歷史操作行為獲得了用戶的向量化表示瘸右,那么我們可以采用跟基于用戶的協(xié)同過濾方法相似的方法來為用戶提供個(gè)性化推薦,具體思路如下:

我們可以將與該用戶最相似的用戶喜歡的標(biāo)的物推薦給該用戶岩齿,算法原理跟基于用戶的協(xié)同過濾類似太颤,計(jì)算公式甚至是一樣的。但是這里計(jì)算用戶相似度是基于用戶的人口統(tǒng)計(jì)學(xué)特征向量表示來計(jì)算的(計(jì)算用戶向量cosine余弦相似度)或者是基于用戶歷史行為嵌入獲得的特征向量來計(jì)算的盹沈,而基于用戶的協(xié)同過濾是基于用戶對(duì)標(biāo)的物的行為矩陣來計(jì)算用戶之間的相似度龄章。

用戶u對(duì)標(biāo)的物s的喜好度sim(u,s)可以采用如下公式計(jì)算,其中U是與該用戶最相似的用戶集合乞封,是用戶對(duì)標(biāo)的物s的喜好度做裙,是用戶與用戶u的相似度。

有了用戶對(duì)每個(gè)標(biāo)的物的相似度肃晚,基于相似度降序排列锚贱,就可以取topN推薦給用戶了。

與前面一樣我們也可以采用最近鄰方法(K-NearestNeighbor, KNN)关串。通過kNN找到最相似的k個(gè)用戶惋鸥,將這些用戶操作/喜歡過的每個(gè)標(biāo)的物推薦給用戶。

其中是給用戶u的推薦悍缠,是用戶相似的k個(gè)用戶卦绣。是用戶操作/喜歡過的標(biāo)的物的集合。

(3)基于標(biāo)的物聚類的推薦

有了標(biāo)的物的向量表示飞蚓,我們可以用kmeans等聚類算法將標(biāo)的物聚類滤港,有了標(biāo)的物的聚類,推薦就好辦了。從用戶歷史行為中的標(biāo)的物所在的類別挑選用戶沒有操作行為的標(biāo)的物推薦給用戶溅漾,這種推薦方式是非常直觀自然的山叮。電視貓的個(gè)性化推薦就采用了類似的思路。具體計(jì)算公式如下添履,其中是給用戶u的推薦屁倔,H是用戶的歷史操作行為集合,Cluster(s)是標(biāo)的物s所在的聚類暮胧。?

(4)基于向量相似的推薦

不管是前面提到的用戶的顯示的興趣特征(利用標(biāo)簽來衡量用戶興趣)或者是向量式的興趣特征(將用戶的興趣投影到向量空間)锐借,我們都可以獲得用戶興趣的向量表示。

如果我們獲得了用戶的向量表示和標(biāo)的物的向量表示往衷,那么我們就可以通過向量的cosine余弦相似度計(jì)算用戶與標(biāo)的物之間的相似度钞翔。一樣地,有了用戶對(duì)每個(gè)標(biāo)的物的相似度席舍,基于相似度降序排列布轿,就可以取topN推薦給用戶了。

基于向量的相似的推薦来颤,需要計(jì)算用戶向量與每個(gè)標(biāo)的物向量的相似性汰扭。如果標(biāo)的物數(shù)量較多,整個(gè)計(jì)算過程還是相當(dāng)耗時(shí)的福铅。同樣地萝毛,計(jì)算標(biāo)的物最相似的K個(gè)標(biāo)的物,也會(huì)涉及到與每個(gè)其他的標(biāo)的物計(jì)算相似度本讥,也是非常耗時(shí)的珊泳。整個(gè)計(jì)算過程的時(shí)間復(fù)雜度是,其中N是標(biāo)的物的總個(gè)數(shù)拷沸。

上述復(fù)雜的計(jì)算過程可以利用Spark等分布式計(jì)算平臺(tái)來加速計(jì)算色查。對(duì)于T+1級(jí)(每天更新一次推薦結(jié)果)的推薦服務(wù),利用Spark事先計(jì)算好撞芍,將推薦結(jié)果存儲(chǔ)起來供前端業(yè)務(wù)調(diào)用是可以的秧了。

另外一種可行的策略是利用高效的向量檢索庫,在極短時(shí)間(一般幾毫秒或者幾十毫秒)內(nèi)為用戶索引出topN最相似的標(biāo)的物序无。目前FaceBook開源的FAISS庫(https://github.com/facebookresearch/faiss)就是一個(gè)高效的向量搜索與聚類庫验毡,可以在毫秒級(jí)響應(yīng)查詢及聚類需求,因此可以用于個(gè)性化的實(shí)時(shí)推薦帝嗡。目前國(guó)內(nèi)有很多公司將該庫用到了推薦業(yè)務(wù)上晶通。

FAISS庫適合稠密向量的檢索和聚類,所以對(duì)于利用LDA哟玷、Doc2vector算法構(gòu)建向量表示的方案是實(shí)用的狮辽,因?yàn)檫@些方法構(gòu)建的是稠密向量。而對(duì)于TF-IDF及基于標(biāo)簽構(gòu)建的向量化表示,就不適用了喉脖,這兩類方法構(gòu)建的都是稀疏的高維向量椰苟。

(5)基于標(biāo)簽的反向倒排索引做推薦

該方法在《推薦系統(tǒng)產(chǎn)品與算法概述》這篇文章中也簡(jiǎn)單做了介紹,這里再簡(jiǎn)單說一下树叽,并且給出具體的計(jì)算公式舆蝴。基于標(biāo)的物的標(biāo)簽和用戶的歷史興趣题诵,我們可以構(gòu)建出用戶基于標(biāo)簽興趣的畫像及標(biāo)簽與標(biāo)的物的倒排索引查詢表(熟悉搜索的同學(xué)應(yīng)該不難理解)洁仗。基于該反向索引表及用戶的興趣畫像仇轻,我們就可以為用戶做個(gè)性化推薦了京痢。該類算法其實(shí)就是基于標(biāo)簽的召回算法奶甘。

具體推薦過程是這樣的(見下面圖7):從用戶畫像中獲取用戶的興趣標(biāo)簽篷店,基于用戶的興趣標(biāo)簽從倒排索引表中獲取該標(biāo)簽對(duì)應(yīng)的標(biāo)的物,這樣就可以從用戶關(guān)聯(lián)到標(biāo)的物了臭家。其中用戶的每個(gè)興趣標(biāo)簽及標(biāo)簽關(guān)聯(lián)到的標(biāo)的物都是有權(quán)重的疲陕。

圖7:基于倒排索引的電影推薦

假設(shè)用戶的興趣標(biāo)簽及對(duì)應(yīng)的標(biāo)簽權(quán)重如下,其中是標(biāo)簽钉赁,是用戶對(duì)標(biāo)簽的偏好權(quán)重蹄殃。

假設(shè)標(biāo)簽關(guān)聯(lián)的標(biāo)的物分別為


......

其中、分別是標(biāo)的物及對(duì)應(yīng)的權(quán)重你踩,那么

上式中U是用戶對(duì)標(biāo)的物的偏好集合诅岩,我們這里將標(biāo)的物看成向量空間的基,所以有上面的公式带膜。不同的標(biāo)簽可以關(guān)聯(lián)到相同的標(biāo)的物(因?yàn)椴煌臉?biāo)的物可以有相同的標(biāo)簽)吩谦,上式中最后一個(gè)等號(hào)右邊需要合并同類項(xiàng),將相同基前面的系數(shù)相加膝藕。合并同類項(xiàng)后式廷,標(biāo)的物(基)前面的數(shù)值就是用戶對(duì)該標(biāo)的物的偏好程度了,我們對(duì)這些偏好程度降序排列芭挽,就可以為用戶做topN推薦了滑废。

到此我們介紹完了基于內(nèi)容的推薦算法的核心原理,那么這些算法是怎么應(yīng)用到真實(shí)的產(chǎn)品中的呢袜爪?有哪些可行的推薦產(chǎn)品形態(tài)蠕趁?這就是下節(jié)的主要內(nèi)容。

03

基于內(nèi)容的推薦算法應(yīng)用場(chǎng)景

基于內(nèi)容的推薦是最古老的一類推薦算法辛馆,在整個(gè)推薦系統(tǒng)發(fā)展史上具有舉足輕重的地位俺陋。雖然它的效果可能沒有協(xié)同過濾及新一代推薦算法好,但是它們還是非常有應(yīng)用價(jià)值的,甚至是必不可少的倔韭∈趵耍基于內(nèi)容的推薦算法主要用在如下幾類場(chǎng)景。

01

完全個(gè)性化推薦

就是基于內(nèi)容特征來為每個(gè)用戶生成不同的推薦結(jié)果寿酌,我們常說的推薦系統(tǒng)就是指這類推薦形態(tài)胰苏。上面一節(jié)第四部分已經(jīng)完整地講解了怎么為用戶做個(gè)性化推薦,這里不再贅述醇疼。

02

標(biāo)的物關(guān)聯(lián)標(biāo)的物推薦

標(biāo)的物關(guān)聯(lián)標(biāo)的物的推薦也是工業(yè)界最常用的推薦形態(tài)硕并,大量用于真實(shí)產(chǎn)品中。

上一節(jié)第三部分講了很多怎么構(gòu)建標(biāo)的物之間相似度的方法秧荆,其實(shí)這些方法可以直接用來做標(biāo)的物關(guān)聯(lián)標(biāo)的物的推薦倔毙,只要我們將與某個(gè)標(biāo)的物最相似的topN的標(biāo)的物作為關(guān)聯(lián)推薦即可。

03

配合其他推薦算法

由于基于內(nèi)容的推薦算法在精準(zhǔn)度上不如協(xié)同過濾等算法乙濒,但是可以更好的適應(yīng)冷啟動(dòng)陕赃,所以在實(shí)際業(yè)務(wù)中基于內(nèi)容的推薦算法會(huì)配合其他算法一起服務(wù)于用戶,最常用的方法是采用級(jí)聯(lián)的方式颁股,先給用戶協(xié)同過濾的推薦結(jié)果么库,如果該用戶行為少?zèng)]有協(xié)同過濾推薦結(jié)果,就為該用戶推薦基于內(nèi)容的推薦算法產(chǎn)生的推薦結(jié)果甘有。

04

主題推薦

如果我們有標(biāo)的物的標(biāo)簽信息诉儒,并且基于標(biāo)簽系統(tǒng)構(gòu)建了一套推薦算法,那么我們就可以將用戶喜歡的標(biāo)簽采用主題的方式推薦給用戶亏掀,每個(gè)主題就是用戶的一個(gè)興趣標(biāo)簽忱反。通過一些列主題的羅列展示,讓用戶從中篩選自己感興趣的內(nèi)容(見下面圖8)滤愕。Netflix的首頁大量采用基于主題的推薦模式温算。主題推薦的好處是可以將用戶所有的興趣點(diǎn)按照興趣偏好大小先后展示出來,可解釋性強(qiáng)该互,并且讓用戶有更多維度的自由選擇空間米者。

當(dāng)然,在真實(shí)產(chǎn)品中可以采用比下面圖8這種簡(jiǎn)單標(biāo)簽直接展示更好的方式宇智。具體來說蔓搞,我們可以為每個(gè)標(biāo)簽通過人工編輯生成一句更有表達(dá)空間的話(如武俠標(biāo)簽,可以采用“江湖風(fēng)云再起随橘,各大門派齊聚論劍”這樣更有深度的表述)喂分,具體前端展示時(shí)映射到人工填充的話而不是直接展示原來的標(biāo)簽。?

圖8:電視貓主題推薦(紅色圈圈中就是基于標(biāo)簽的用戶興趣)

05

給用戶推薦標(biāo)簽

另外一種可行的推薦策略是不直接給用戶推薦標(biāo)的物机蔗,而是給用戶推薦標(biāo)簽蒲祈,用戶通過關(guān)注推薦的標(biāo)簽甘萧,自動(dòng)獲取具備該標(biāo)簽的標(biāo)的物。除了可以通過推薦的標(biāo)簽關(guān)聯(lián)到標(biāo)的物獲得直接推薦標(biāo)的物類似的效果外梆掸,間接地通過用戶對(duì)推薦的標(biāo)簽的選擇扬卷、關(guān)注進(jìn)一步獲得了用戶的興趣偏好,這是一種可行的推薦產(chǎn)品實(shí)現(xiàn)方案酸钦。

04

基于內(nèi)容的推薦算法的優(yōu)勢(shì)與缺點(diǎn)

基于內(nèi)容的推薦算法算是一類比較直觀易懂的算法怪得,目前在工業(yè)級(jí)推薦系統(tǒng)中有大量的使用場(chǎng)景,在本節(jié)我們對(duì)基于內(nèi)容的推薦算法的優(yōu)缺點(diǎn)加以說明卑硫,方便讀者在實(shí)踐中選擇取舍徒恋,構(gòu)建適合業(yè)務(wù)場(chǎng)景的內(nèi)容推薦系統(tǒng)。

01

優(yōu)點(diǎn)

基于上面的介紹欢伏,基于內(nèi)容的推薦算法是非常直觀的入挣,具體來說,它有如下6個(gè)優(yōu)點(diǎn)硝拧。

(1)可以很好的識(shí)別用戶的口味

該算法完全基于用戶的歷史興趣來為用戶推薦径筏,推薦的標(biāo)的物也是跟用戶歷史興趣相似的,所以推薦的內(nèi)容一定是符合用戶的口味的河爹。

(2)非常直觀易懂匠璧,可解釋性強(qiáng)

基于內(nèi)容的推薦算法基于用戶的興趣為用戶推薦跟他興趣相似的標(biāo)的物桐款,原理簡(jiǎn)單咸这,容易理解。同時(shí)魔眨,由于是基于用戶歷史興趣推薦跟興趣相似的標(biāo)的物媳维,用戶也非常容易接受和認(rèn)可。

(3)可以更加容易的解決冷啟動(dòng)

只要用戶有一個(gè)操作行為遏暴,就可以基于內(nèi)容為用戶做推薦侄刽,不依賴其他用戶行為。同時(shí)對(duì)于新入庫的標(biāo)的物朋凉,只要它具備metadata信息等標(biāo)的物相關(guān)信息州丹,就可以利用基于內(nèi)容的推薦算法將它分發(fā)出去。因此杂彭,對(duì)于強(qiáng)依賴于UGC內(nèi)容的產(chǎn)品(如抖音墓毒、快手等),基于內(nèi)容的推薦可以更好地對(duì)標(biāo)的物提供方進(jìn)行流量扶持亲怠。

(4)算法實(shí)現(xiàn)相對(duì)簡(jiǎn)單

基于內(nèi)容的推薦可以基于標(biāo)簽維度做推薦所计,也可以將標(biāo)的物嵌入向量空間中,利用相似度做推薦团秽,不管哪種方式主胧,算法實(shí)現(xiàn)較簡(jiǎn)單叭首,有現(xiàn)成的開源的算法庫供開發(fā)者使用,非常容易落地到真實(shí)的業(yè)務(wù)場(chǎng)景中踪栋。

(5)對(duì)于小眾領(lǐng)域也能有比較好的推薦效果

對(duì)于冷門小眾的標(biāo)的物焙格,用戶行為少,協(xié)同過濾等方法很難將這類內(nèi)容分發(fā)出去夷都,而基于內(nèi)容的算法受到這種情況的影響相對(duì)較小间螟。

(6)非常適合標(biāo)的物快速增長(zhǎng)的有時(shí)效性要求的產(chǎn)品

對(duì)于標(biāo)的物增長(zhǎng)很快的產(chǎn)品,如今日頭條等新聞資訊類APP损肛,基本每天都有幾十萬甚至更多的標(biāo)的物入庫厢破,另外標(biāo)的物時(shí)效性也很強(qiáng)。新標(biāo)的物一般用戶行為少治拿,協(xié)同過濾等算法很難將這些大量實(shí)時(shí)產(chǎn)生的新標(biāo)的物推薦出去摩泪,這時(shí)就可以采用基于內(nèi)容的推薦算法更好地分發(fā)這些內(nèi)容。

02

缺點(diǎn)

雖然基于內(nèi)容的推薦實(shí)現(xiàn)相對(duì)容易劫谅,解釋性強(qiáng)见坑,但是基于內(nèi)容的推薦算法存在一些不足,導(dǎo)致它的效果及應(yīng)用范圍受到一定限制捏检。主要的問題有如下4個(gè):

(1)推薦范圍狹窄荞驴,新穎性不強(qiáng)

由于該類算法只依賴于單個(gè)用戶的行為為用戶做推薦,推薦的結(jié)果會(huì)聚集在用戶過去感興趣的標(biāo)的物類別上贯城,如果用戶不主動(dòng)關(guān)注其他類型的標(biāo)的物熊楼,很難為用戶推薦多樣性的結(jié)果,也無法挖掘用戶深層次的潛在興趣能犯。特別是對(duì)于新用戶鲫骗,只有少量的行為,為用戶推薦的標(biāo)的物較單一踩晶。

(2)需要知道相關(guān)的內(nèi)容信息且處理起來較難

內(nèi)容信息主要是文本执泰、視頻、音頻渡蜻,處理起來費(fèi)力术吝,相對(duì)難度較大,依賴領(lǐng)域知識(shí)茸苇。同時(shí)這些信息更容易有更大概率含有噪音排苍,增加了處理難度。另外税弃,對(duì)內(nèi)容理解的全面性纪岁、完整性及準(zhǔn)確性會(huì)影響推薦的效果。

(3)較難將長(zhǎng)尾標(biāo)的物分發(fā)出去

基于內(nèi)容的推薦需要用戶對(duì)標(biāo)的物有操作行為则果,長(zhǎng)尾標(biāo)的物一般操作行為非常少幔翰,只有很少用戶操作漩氨,甚至沒有用戶操作。由于基于內(nèi)容的推薦只利用單個(gè)用戶行為做推薦遗增,所以更難將它分發(fā)給更多的用戶叫惊。

(4)推薦精準(zhǔn)度不太高

基于工業(yè)界的實(shí)踐經(jīng)驗(yàn),相比協(xié)同過濾算法做修,基于內(nèi)容的推薦算法精準(zhǔn)度要差一些霍狰。

05

算法落地需要關(guān)注的重要問題

基于內(nèi)容的推薦算法雖然容易理解,實(shí)現(xiàn)起來相對(duì)簡(jiǎn)單饰及,但在落地到真實(shí)業(yè)務(wù)場(chǎng)景中蔗坯,有很多問題需要思考解決。下面這些問題是在落地基于內(nèi)容推薦算法時(shí)必須思考的燎含,這里將他們列舉出來宾濒,并提供一些簡(jiǎn)單的建議,希望可以幫到讀者屏箍。

01

內(nèi)容來源的獲取

對(duì)于基于內(nèi)容的推薦來說绘梦,有完整的、高質(zhì)量的內(nèi)容信息是可以構(gòu)建精準(zhǔn)的推薦算法的基礎(chǔ)赴魁,那我們有哪些方法可以獲取內(nèi)容來源呢卸奉?下面這些策略是主要獲取內(nèi)容(包括標(biāo)的物內(nèi)容和用戶相關(guān)內(nèi)容)來源的手段。

(1)標(biāo)的物“自身攜帶”的信息

標(biāo)的物在上架時(shí)颖御,第三方會(huì)準(zhǔn)備相關(guān)的內(nèi)容信息榄棵,如天貓上的商品在上架時(shí)會(huì)補(bǔ)充很多必要的信息。對(duì)于視頻來說郎嫁,各類metadata信息也是視頻入庫時(shí)需要填充的信息秉继。我們要做的是增加對(duì)新標(biāo)的物入庫的監(jiān)控和審核,及時(shí)發(fā)現(xiàn)信息不全的情況并做適當(dāng)處理泽铛。

(2)通過爬蟲獲取標(biāo)的物相關(guān)信息

通過爬蟲爬取的信息可以作為標(biāo)的物信息的補(bǔ)充,特別是補(bǔ)充上面(1)不全的信息辑鲤。有了更完整的信息就可以獲得更好的特征表示盔腔。

(3)通過人工標(biāo)注數(shù)據(jù)

往往人工標(biāo)注的數(shù)據(jù)價(jià)值密度高,通過人工精準(zhǔn)的標(biāo)注可以大大提升算法推薦的精準(zhǔn)度月褥。但是人工標(biāo)注成本太大弛随。

(4)通過運(yùn)營(yíng)活動(dòng)或者產(chǎn)品交互讓用戶填的內(nèi)容

通過抽獎(jiǎng)活動(dòng)讓用戶填寫家庭組成、興趣偏好等宁赤,在用戶開始注冊(cè)時(shí)讓用戶填寫興趣偏好特征舀透,這些都是獲取內(nèi)容的手段。

(5)通過收集用戶行為直接獲得或者預(yù)測(cè)推斷出的內(nèi)容

通過請(qǐng)求用戶GPS位置知道用戶的活動(dòng)軌跡决左,用戶購(gòu)物時(shí)填寫收貨地址愕够,用戶綁定的身份證和銀行卡等走贪,通過用戶操作行為預(yù)測(cè)出用戶的興趣偏好,這些方法都可以獲得部分用戶數(shù)據(jù)惑芭。

(6)通過與第三方合作或者產(chǎn)品矩陣之間補(bǔ)充信息

目前中國(guó)有大數(shù)據(jù)交易市場(chǎng)坠狡,通過正規(guī)的數(shù)據(jù)交易或者跟其他公司合作,在不侵犯用戶隱私的情況下遂跟,通過交換數(shù)據(jù)可以有效填補(bǔ)自己產(chǎn)品上缺失的數(shù)據(jù)逃沿。

如果公司有多個(gè)產(chǎn)品,新產(chǎn)品可以借助老產(chǎn)品的巨大用戶基數(shù)幻锁,將新產(chǎn)品的用戶與老產(chǎn)品用戶關(guān)聯(lián)起來(id-maping或者賬號(hào)打通)凯亮,這樣老產(chǎn)品上豐富的用戶行為信息可以賦能給新產(chǎn)品。

02

怎么利用負(fù)反饋

用戶對(duì)標(biāo)的物的操作行為不一定代表正向反饋哄尔,有可能是負(fù)向的触幼。比如點(diǎn)開一個(gè)視頻,看了不到幾秒就退出來了究飞,明顯表明用戶不喜歡置谦。有很多產(chǎn)品會(huì)在用戶交互中直接提供負(fù)向反饋能力,這樣可以收集到更多負(fù)向反饋亿傅。下面是今日頭條和百度APP推薦的文章媒峡,右下角有一個(gè)小叉叉(見下面圖9中紅色圈圈),點(diǎn)擊后展示上面的白色交互區(qū)域葵擎,讀者可以勾選幾類不同的負(fù)向反饋機(jī)制谅阿。

?圖9:負(fù)向反饋的交互形式:利用用戶負(fù)向反饋來優(yōu)化產(chǎn)品體驗(yàn)

負(fù)向反饋代表用戶強(qiáng)烈的不滿,因此如果推薦算法可以很好的利用這些負(fù)向反饋就能夠大大提升推薦系統(tǒng)的精準(zhǔn)度和滿意度酬滤∏┎停基于內(nèi)容的推薦算法整合負(fù)向反饋的方式有如下幾種:

(1) 將負(fù)向反饋整合到算法模型中

在構(gòu)建算法模型中整合負(fù)向反饋,跟正向反饋一起學(xué)習(xí)盯串,從而更自然地整合負(fù)向反饋信息氯檐。

(2) 采用事后過濾的方式

先給用戶生成推薦列表,再?gòu)脑撏扑]列表中過濾掉與負(fù)向反饋關(guān)聯(lián)的或者相似的標(biāo)的物体捏。

(3) 采用事前處理的方式

從待推薦的候選集中先將與負(fù)向反饋相關(guān)聯(lián)或者相似的標(biāo)的物剔除掉冠摄,然后再進(jìn)行相關(guān)算法的推薦。

03

興趣隨時(shí)間變化

用戶的興趣不是一成不變的几缭,一般用戶的興趣是隨著時(shí)間變化的河泳,那怎么在算法中整合用戶的興趣變化呢?可行的策略是對(duì)用戶的興趣根據(jù)時(shí)間衰減年栓,最近的行為給予最大的權(quán)重拆挥。還可以分別給用戶建立短期興趣特征和長(zhǎng)期興趣特征,在推薦時(shí)既考慮短期興趣又考慮長(zhǎng)期興趣某抓,最終推薦列表中整合兩部分的推薦結(jié)果纸兔。

對(duì)于新聞資訊等這類時(shí)效性強(qiáng)的產(chǎn)品惰瓜,能夠整合用戶的實(shí)時(shí)興趣變化可以大大提升用戶體驗(yàn),這也是現(xiàn)在信息流類推薦產(chǎn)品大行其道的原因食拜。

04

數(shù)據(jù)清洗

基于內(nèi)容的推薦算法依賴于標(biāo)的物相關(guān)的描述信息鸵熟,這些信息更多的是以文本的形式存在,這就涉及到自然語言處理了负甸,文本中可能會(huì)存在很多歧義流强、符號(hào)、臟數(shù)據(jù)呻待,我們需要事先對(duì)數(shù)據(jù)進(jìn)行很好的處理打月,才能讓后續(xù)的推薦算法產(chǎn)生好的效果。

05

加速計(jì)算與節(jié)省資源

在實(shí)際推薦算法落地時(shí)蚕捉,我們會(huì)事先為每個(gè)標(biāo)的物計(jì)算N(=50)個(gè)最相似的標(biāo)的物奏篙,事先將計(jì)算好的標(biāo)的物存起來,減少時(shí)間和空間成本迫淹,方便后續(xù)更好地做推薦秘通。同時(shí)也可以利用各種分布式計(jì)算平臺(tái)和快速查詢平臺(tái)(如Spark、FAISS庫等)加速計(jì)算過程敛熬。另外肺稀,算法開發(fā)過程中盡量做到模塊化,對(duì)業(yè)務(wù)做抽象封裝应民,這可以大大提升開發(fā)效率话原,并且可能會(huì)節(jié)省很多資源。

06

怎么解決基于內(nèi)容的推薦越推越窄的問題

前面提到基于內(nèi)容的推薦存在越推越窄的缺點(diǎn)诲锹,那怎么避免或者減弱這種影響呢繁仁?當(dāng)然用協(xié)同過濾等其他算法是一個(gè)有效的方法。另外归园,我們可以給用戶做興趣探索黄虱,為用戶推薦興趣之外的特征關(guān)聯(lián)的標(biāo)的物,通過用戶的反饋來拓展用戶興趣空間蔓倍,這類方法就是強(qiáng)化學(xué)習(xí)中的EE方法悬钳。如果我們構(gòu)造了標(biāo)的物的知識(shí)圖譜系統(tǒng),我們就可以通過圖譜拓展標(biāo)的物更遠(yuǎn)的聯(lián)系偶翅,通過長(zhǎng)線的相關(guān)性來做推薦,同樣可以有效解決越推越窄的問題碉渡。

07

工程落地技術(shù)選型

本篇文章主要講的是基于內(nèi)容的推薦系統(tǒng)的算法實(shí)現(xiàn)原理聚谁,具體工程實(shí)踐時(shí),需要考慮到數(shù)據(jù)處理滞诺、模型訓(xùn)練形导、分布式計(jì)算等技術(shù),當(dāng)前很多開源方案可以使用,常用的如Spark mllib锦茁,scikit-learn存璃,Tensorflow,pytorch阎曹,gensim等伪阶,這些工具都封裝了很多數(shù)據(jù)處理、特征提取处嫌、機(jī)器學(xué)習(xí)算法栅贴,我們可以基于第二節(jié)的算法思路來落地實(shí)現(xiàn)。

08

業(yè)務(wù)的安全性

除了技術(shù)外熏迹,在推薦產(chǎn)品落地中還需要考慮推薦的標(biāo)的物的安全性檐薯,避免推薦反動(dòng)、色情注暗、標(biāo)題黨坛缕、低俗內(nèi)容,這些就需要基于NLP或者CV技術(shù)對(duì)文本或者視頻進(jìn)行分析過濾捆昏。如果是UGC平臺(tái)型的產(chǎn)品赚楚,還需要考慮怎么激勵(lì)優(yōu)質(zhì)內(nèi)容創(chuàng)作者,讓好的內(nèi)容得到更多的分發(fā)機(jī)會(huì)屡立,同時(shí)對(duì)產(chǎn)生劣質(zhì)內(nèi)容的創(chuàng)作者采取一定的懲罰措施直晨,比如限制發(fā)文頻率、禁止一段時(shí)間的發(fā)文權(quán)限等膨俐。

06

寫在最后

本文作者基于自己的實(shí)踐經(jīng)驗(yàn)總結(jié)了常用的基于內(nèi)容的推薦算法及落地場(chǎng)景勇皇,并對(duì)基于內(nèi)容的推薦算法的優(yōu)缺點(diǎn)及實(shí)踐過程中需要關(guān)注的問題進(jìn)行了分析討論》俅蹋基于內(nèi)容的推薦算法一般用于推薦召回階段敛摘,通過內(nèi)容特征來為用戶選擇可能喜歡的內(nèi)容。

星標(biāo)我乳愉,每天多一點(diǎn)智慧

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末兄淫,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子蔓姚,更是在濱河造成了極大的恐慌捕虽,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,378評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件坡脐,死亡現(xiàn)場(chǎng)離奇詭異泄私,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,970評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門晌端,熙熙樓的掌柜王于貴愁眉苦臉地迎上來捅暴,“玉大人,你說我怎么就攤上這事咧纠∨钛鳎” “怎么了?”我有些...
    開封第一講書人閱讀 168,983評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵漆羔,是天一觀的道長(zhǎng)梧奢。 經(jīng)常有香客問我,道長(zhǎng)钧椰,這世上最難降的妖魔是什么粹断? 我笑而不...
    開封第一講書人閱讀 59,938評(píng)論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮嫡霞,結(jié)果婚禮上瓶埋,老公的妹妹穿的比我還像新娘。我一直安慰自己诊沪,他們只是感情好养筒,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,955評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著端姚,像睡著了一般晕粪。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上渐裸,一...
    開封第一講書人閱讀 52,549評(píng)論 1 312
  • 那天巫湘,我揣著相機(jī)與錄音,去河邊找鬼昏鹃。 笑死尚氛,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的洞渤。 我是一名探鬼主播阅嘶,決...
    沈念sama閱讀 41,063評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼载迄!你這毒婦竟也來了讯柔?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,991評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤护昧,失蹤者是張志新(化名)和其女友劉穎魂迄,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體惋耙,經(jīng)...
    沈念sama閱讀 46,522評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡极祸,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,604評(píng)論 3 342
  • 正文 我和宋清朗相戀三年慈格,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了怠晴。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片遥金。...
    茶點(diǎn)故事閱讀 40,742評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖蒜田,靈堂內(nèi)的尸體忽然破棺而出稿械,到底是詐尸還是另有隱情,我是刑警寧澤冲粤,帶...
    沈念sama閱讀 36,413評(píng)論 5 351
  • 正文 年R本政府宣布美莫,位于F島的核電站,受9級(jí)特大地震影響梯捕,放射性物質(zhì)發(fā)生泄漏厢呵。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,094評(píng)論 3 335
  • 文/蒙蒙 一傀顾、第九天 我趴在偏房一處隱蔽的房頂上張望襟铭。 院中可真熱鬧,春花似錦短曾、人聲如沸寒砖。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,572評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽哩都。三九已至,卻和暖如春婉徘,著一層夾襖步出監(jiān)牢的瞬間漠嵌,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,671評(píng)論 1 274
  • 我被黑心中介騙來泰國(guó)打工盖呼, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留儒鹿,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,159評(píng)論 3 378
  • 正文 我出身青樓塌计,卻偏偏與公主長(zhǎng)得像挺身,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子锌仅,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,747評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容