文件推薦:讓外部渠道過(guò)來(lái)的用戶通過(guò)推薦算法瀏覽更多文件吟榴,放大導(dǎo)流效果坪它。
模塊1:記錄行為數(shù)據(jù)
從瀏覽器過(guò)來(lái)的流量,每一個(gè)都要按照算法計(jì)算一個(gè)獨(dú)立的id乒验,以便區(qū)用戶。
未登錄情況:記錄獨(dú)立id蒂阱,設(shè)備碼锻全,瀏覽器
已登錄或來(lái)訪后登錄:合并uid和獨(dú)立id
對(duì)流量做好標(biāo)記后,詳細(xì)記錄用戶訪問(wèn)行為數(shù)據(jù)录煤。
包括:瀏覽時(shí)間鳄厌,瀏覽設(shè)備,瀏覽項(xiàng)目妈踊,跳轉(zhuǎn)項(xiàng)目了嚎,跳轉(zhuǎn)次數(shù),訪問(wèn)時(shí)長(zhǎng)等
模塊二:處理文件
將庫(kù)內(nèi)所有可解析的文件轉(zhuǎn)化成TXT,這是預(yù)處理(稱:向量化)歪泳,將所有TXT變成一個(gè)大集合萝勤。
同一分類下的文件集合,詞語(yǔ)會(huì)有非常高的重合度夹囚。
預(yù)先將重合度高的文件分到不同集合內(nèi)纵刘,相當(dāng)于對(duì)文件進(jìn)行一次聚類。
1荸哟、當(dāng)進(jìn)來(lái)一個(gè)新文件,預(yù)處理過(guò)后瞬捕,進(jìn)行詞語(yǔ)擬合鞍历;可以初步判定文件歸屬于哪一類。
2肪虎、當(dāng)用戶訪問(wèn)一個(gè)文件劣砍,我們可以在集合內(nèi)調(diào)取相似度最高的幾個(gè)文件,實(shí)時(shí)展示給用戶扇救,提高接受度刑枝。
這個(gè)模塊的弊端是,很可能會(huì)針對(duì)用戶的某一個(gè)興趣反復(fù)推薦同一批文件給用戶迅腔。
1装畅、這里是否可以通過(guò)其他推薦方法,推薦除了這個(gè)興趣以外的文件以保證結(jié)果多樣性沧烈,從而探索用戶的新興趣掠兄?
2、對(duì)這個(gè)模塊篩選出來(lái)的結(jié)果锌雀,應(yīng)針對(duì)瀏覽行為進(jìn)行排重蚂夕,不用讓用戶閱讀他已經(jīng)看過(guò)的內(nèi)容。
模塊三:從用戶到文件
模塊一記錄了用戶的訪問(wèn)數(shù)據(jù)腋逆⌒鲭梗可以認(rèn)為,用戶的“口味”在一定時(shí)間內(nèi)是保持統(tǒng)一的惩歉。
那么等脂,通過(guò)用戶瀏覽行為可以智能補(bǔ)充模塊二計(jì)算不出來(lái)的文件。
假設(shè)用戶1和用戶2瀏覽了8個(gè)相似文件柬泽,用戶2額外瀏覽了2個(gè)文件慎菲。
此時(shí),可以把用戶2額外瀏覽的锨并,推薦給用戶1露该。
具體數(shù)值和規(guī)則都需要要測(cè)算和調(diào)整。
另外還要注意模塊二和模塊三之間的數(shù)據(jù)排重第煮,用戶瀏覽記錄的排重解幼。
數(shù)據(jù)量越大推薦結(jié)果越權(quán)威抑党。
補(bǔ)充:以上模塊中可參考的文本處理方法
局部敏感哈希(Locality-Sensitive Hashing, LSH)
TF-IDF(term?frequency–inverse?document?frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)
H5?FingerprintJS?瀏覽器指紋
Word2Vector??句子相似度