? ? ? ? 剛看到一篇關(guān)于信息流熱度排行仔燕,個(gè)性化推薦機(jī)制的文章造垛,寫此文章總結(jié)下。本文雖思想?yún)⒄盏那拜叺奈螅且彩亲约涸瓌?chuàng)五辽。
? ? ? ? 首先說明信息既包括文字類的信息,也包括圖片外恕,視頻杆逗,甚至商品信息等信息。
? ? ? ? 解釋下三個(gè)名詞:
? ? ? ? 熱度詞庫:該詞庫根據(jù)當(dāng)前熱點(diǎn)來更新鳞疲,添加方式有兩種罪郊,手動更新,抓取微博等成熟媒體熱詞尚洽。
? ? ? ? 標(biāo)準(zhǔn)詞庫:記錄該產(chǎn)品中可能出現(xiàn)的信息的所有關(guān)鍵詞悔橄。一般來說網(wǎng)上有專門的在線詞庫可供選擇。
? ? ? 停用詞庫:在檢索關(guān)鍵詞時(shí)候翎朱,需要舍棄的詞語橄维,比如“我”,“想”等一些沒有實(shí)際含義的詞語拴曲。
一争舞、信息熱度排行機(jī)制
? ? ? 此處信息熱度排行類似于微博的熱搜,百度風(fēng)云榜澈灼,今日頭條的熱點(diǎn)等竞川。當(dāng)然此處的排行機(jī)制相比較于幾位大頭的算法機(jī)制較為簡單店溢,但是對于熱度排行的學(xué)習(xí)還是有很大幫助的。
? ? ? 公式:信息的熱度(H)=信息的初始熱度(H0)+信息的交互熱度(H(User))-隨時(shí)間遞減的熱度(H(Time))
? ? ? 首先得出該信息的所有關(guān)鍵詞委乌,方式:發(fā)布人自定義標(biāo)簽+系統(tǒng)根據(jù)標(biāo)準(zhǔn)詞庫和停用詞庫進(jìn)行系統(tǒng)篩選床牧。
1.信息的初始熱度(H0)
(1)第一種計(jì)算方法:根據(jù)該信息所屬的分類進(jìn)行熱度計(jì)算。例如遭贸,娛樂類的S(0)= H * 1.5戈咳,體育類的S(0)= H * 1.2。
(2)第二種計(jì)算方法:計(jì)算該信息的所有關(guān)鍵詞與熱詞庫的匹配度壕吹。S(0)=匹配度*H著蛙。
2.信息的交互熱度(H(User))
H(User)=(1*閱讀數(shù)+ 2*推薦數(shù)+ 3*評論數(shù)+ 4*分享數(shù))* N。
3.隨時(shí)間遞減的熱度(H(Time))
一個(gè)信息的熱度應(yīng)該隨時(shí)間指數(shù)遞減的耳贬,所以H(Time)表示應(yīng)該如下圖:
此處應(yīng)為一個(gè)隨時(shí)間遞增的指數(shù)函數(shù)踏堡,一個(gè)點(diǎn)為引爆點(diǎn)。
二咒劲、個(gè)性化推薦機(jī)制
1.基于內(nèi)容的個(gè)性化推薦
(1)首先得出該信息中關(guān)鍵詞集合顷蟆。(根據(jù)標(biāo)準(zhǔn)詞庫以及用戶自定義標(biāo)簽得出。)
(2)計(jì)算出關(guān)鍵詞集中單個(gè)關(guān)鍵詞對應(yīng)的tfidf值腐魂,tfidf值= tf * idf,用于 衡量該關(guān)鍵詞對于該信息的重要程度帐偎,其中tf是指該關(guān)鍵詞在該信息內(nèi)出現(xiàn)的頻率,idf指的是該關(guān)鍵詞在所有信息內(nèi)出現(xiàn)的頻率的相反值蛔屹,一般來講肮街,tf,idf越高判导,該關(guān)鍵詞越具有代表性。
(3)得出該信息的特征向量沛硅。
(4)文章關(guān)聯(lián)性之間的應(yīng)用眼刃。
計(jì)算兩個(gè)信息的特征向量,然后得出兩個(gè)向量的cos值摇肌。用cos值來表示兩個(gè)信息之間的相關(guān)性擂红。這種常應(yīng)用于相關(guān)文章推薦板塊,相關(guān)視頻推薦版塊围小。
(5)利用用戶特征向量來給用戶推薦信息昵骤。
當(dāng)用戶閱讀完一條信息后,對于該信息會有一個(gè)信息的特征向量為:
對應(yīng)的該用戶的行為向量為:
read,like,comment,share代表用戶的各種行為肯适,1,2,3,4分別代表各種行為的權(quán)重(人為賦予变秦。)
最終得出該用戶的特征向量為:
隨著用戶閱讀的信息量不斷增多,用戶特征向量越來越豐富框舔,再用用戶特征向量與各個(gè)文章相匹配蹦玫,就能進(jìn)行個(gè)性化推薦了赎婚。
2.基于用戶的協(xié)同推薦
(1)獲取用戶數(shù)據(jù)信息
a.外部數(shù)據(jù)。微信登錄樱溉,qq登錄可以獲取昵稱挣输,頭像。
B.主動詢問福贞。例如撩嚼,某些app會一開始詢問你性別,年齡等挖帘。
(2)根據(jù)獲取的用戶信息以及前面所說的用戶特征向量進(jìn)行用戶分群完丽。
(3)對于用戶X,他處于群體S(X肠套,n)舰涌,得出該群體的信息集合。分別得出用戶X分別與每一個(gè)信息的得分(第一個(gè)指標(biāo)是用戶X與S(X你稚,n)中每個(gè)用戶之間的關(guān)聯(lián)度瓷耙,第二個(gè)指標(biāo)是每個(gè)用戶對于該信息的關(guān)聯(lián)度)。
(4)根據(jù)每個(gè)信息的最終得分向用戶X進(jìn)行推薦刁赖。
小結(jié):以上都是基本的機(jī)制算法搁痛,實(shí)際運(yùn)用當(dāng)中,應(yīng)該是結(jié)合使用宇弛,并且根據(jù)實(shí)際情況有側(cè)重點(diǎn)鸡典。
微信公眾號:多一點(diǎn)思考,歡迎關(guān)注