機(jī)器學(xué)習(xí)的一個(gè)簡(jiǎn)單實(shí)際應(yīng)用場(chǎng)景

文件推薦:讓外部渠道過(guò)來(lái)的用戶通過(guò)推薦算法瀏覽更多文件吟榴,放大導(dǎo)流效果坪它。

模塊1:記錄行為數(shù)據(jù)

從瀏覽器過(guò)來(lái)的流量,每一個(gè)都要按照算法計(jì)算一個(gè)獨(dú)立的id乒验,以便區(qū)用戶。

未登錄情況:記錄獨(dú)立id蒂阱,設(shè)備碼锻全,瀏覽器

已登錄或來(lái)訪后登錄:合并uid和獨(dú)立id


對(duì)流量做好標(biāo)記后,詳細(xì)記錄用戶訪問(wèn)行為數(shù)據(jù)录煤。

包括:瀏覽時(shí)間鳄厌,瀏覽設(shè)備,瀏覽項(xiàng)目妈踊,跳轉(zhuǎn)項(xiàng)目了嚎,跳轉(zhuǎn)次數(shù),訪問(wèn)時(shí)長(zhǎng)等


模塊二:處理文件

將庫(kù)內(nèi)所有可解析的文件轉(zhuǎn)化成TXT,這是預(yù)處理(稱:向量化)歪泳,將所有TXT變成一個(gè)大集合萝勤。

同一分類下的文件集合,詞語(yǔ)會(huì)有非常高的重合度夹囚。

預(yù)先將重合度高的文件分到不同集合內(nèi)纵刘,相當(dāng)于對(duì)文件進(jìn)行一次聚類。


1荸哟、當(dāng)進(jìn)來(lái)一個(gè)新文件,預(yù)處理過(guò)后瞬捕,進(jìn)行詞語(yǔ)擬合鞍历;可以初步判定文件歸屬于哪一類。

2肪虎、當(dāng)用戶訪問(wèn)一個(gè)文件劣砍,我們可以在集合內(nèi)調(diào)取相似度最高的幾個(gè)文件,實(shí)時(shí)展示給用戶扇救,提高接受度刑枝。


這個(gè)模塊的弊端是,很可能會(huì)針對(duì)用戶的某一個(gè)興趣反復(fù)推薦同一批文件給用戶迅腔。

1装畅、這里是否可以通過(guò)其他推薦方法,推薦除了這個(gè)興趣以外的文件以保證結(jié)果多樣性沧烈,從而探索用戶的新興趣掠兄?

2、對(duì)這個(gè)模塊篩選出來(lái)的結(jié)果锌雀,應(yīng)針對(duì)瀏覽行為進(jìn)行排重蚂夕,不用讓用戶閱讀他已經(jīng)看過(guò)的內(nèi)容。


模塊三:從用戶到文件

模塊一記錄了用戶的訪問(wèn)數(shù)據(jù)腋逆⌒鲭梗可以認(rèn)為,用戶的“口味”在一定時(shí)間內(nèi)是保持統(tǒng)一的惩歉。

那么等脂,通過(guò)用戶瀏覽行為可以智能補(bǔ)充模塊二計(jì)算不出來(lái)的文件。


假設(shè)用戶1和用戶2瀏覽了8個(gè)相似文件柬泽,用戶2額外瀏覽了2個(gè)文件慎菲。

此時(shí),可以把用戶2額外瀏覽的锨并,推薦給用戶1露该。

具體數(shù)值和規(guī)則都需要要測(cè)算和調(diào)整。

另外還要注意模塊二和模塊三之間的數(shù)據(jù)排重第煮,用戶瀏覽記錄的排重解幼。

數(shù)據(jù)量越大推薦結(jié)果越權(quán)威抑党。


補(bǔ)充:以上模塊中可參考的文本處理方法

局部敏感哈希(Locality-Sensitive Hashing, LSH)

TF-IDF(term?frequency–inverse?document?frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)

H5?FingerprintJS?瀏覽器指紋

Word2Vector??句子相似度

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市撵摆,隨后出現(xiàn)的幾起案子底靠,更是在濱河造成了極大的恐慌,老刑警劉巖特铝,帶你破解...
    沈念sama閱讀 218,858評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件暑中,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡鲫剿,警方通過(guò)查閱死者的電腦和手機(jī)鳄逾,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)灵莲,“玉大人雕凹,你說(shuō)我怎么就攤上這事≌常” “怎么了枚抵?”我有些...
    開(kāi)封第一講書人閱讀 165,282評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)明场。 經(jīng)常有香客問(wèn)我汽摹,道長(zhǎng),這世上最難降的妖魔是什么榕堰? 我笑而不...
    開(kāi)封第一講書人閱讀 58,842評(píng)論 1 295
  • 正文 為了忘掉前任竖慧,我火速辦了婚禮,結(jié)果婚禮上逆屡,老公的妹妹穿的比我還像新娘圾旨。我一直安慰自己,他們只是感情好魏蔗,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,857評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布砍的。 她就那樣靜靜地躺著,像睡著了一般莺治。 火紅的嫁衣襯著肌膚如雪廓鞠。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 51,679評(píng)論 1 305
  • 那天谣旁,我揣著相機(jī)與錄音床佳,去河邊找鬼。 笑死榄审,一個(gè)胖子當(dāng)著我的面吹牛砌们,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,406評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼浪感,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼昔头!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起影兽,我...
    開(kāi)封第一講書人閱讀 39,311評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤揭斧,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后峻堰,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體讹开,經(jīng)...
    沈念sama閱讀 45,767評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年捐名,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了萧吠。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,090評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡桐筏,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出拇砰,到底是詐尸還是另有隱情梅忌,我是刑警寧澤,帶...
    沈念sama閱讀 35,785評(píng)論 5 346
  • 正文 年R本政府宣布除破,位于F島的核電站牧氮,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏瑰枫。R本人自食惡果不足惜踱葛,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,420評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望光坝。 院中可真熱鬧尸诽,春花似錦、人聲如沸盯另。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,988評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)鸳惯。三九已至商蕴,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間芝发,已是汗流浹背绪商。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,101評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留辅鲸,地道東北人格郁。 一個(gè)月前我還...
    沈念sama閱讀 48,298評(píng)論 3 372
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親理张。 傳聞我的和親對(duì)象是個(gè)殘疾皇子赫蛇,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,033評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容