【DW12月-推薦系統(tǒng)】Task01 熟悉推薦系統(tǒng)基本流程

參考鏈接:https://github.com/datawhalechina/fun-rec

一挑豌、掌握數(shù)據(jù)分析方法

數(shù)據(jù)分析的價值主要在于熟悉了解整個數(shù)據(jù)集的基本情況包括每個文件里有哪些數(shù)據(jù)焚刺,具體的文件中的每個字段表示什么實際含義,以及數(shù)據(jù)集中特征之間的相關(guān)性浑劳,在推薦場景下主要就是分析用戶本身的基本屬性拌汇,文章基本屬性酌泰,以及用戶和文章交互的一些分布晒来。
常用的數(shù)據(jù)分析方法有描述統(tǒng)計肛度、假設(shè)檢驗、信度分析谷饿、列聯(lián)表分析惶我、相關(guān)分析、方差分析博投、回歸分析绸贡、聚類分析、判別分析、主成分分析听怕、因子分析捧挺、時間序列分析、生存分析尿瞭、典型相關(guān)分析闽烙、ROC分析等。不是所有的分析方法都需要用到声搁,不同的場景使用不同的方法進行分析黑竞。

二、了解多路召回策略

召回負責(zé)從百萬級物品中粗選出千級數(shù)量物品疏旨,常用算法有協(xié)同過濾很魂、用戶畫像等,有時候也叫粗排層檐涝。
所謂的多路召回策略遏匆,就是指采用不同的策略、特征或簡單模型谁榜,分別召回一部分候選集幅聘,然后把候選集混合在一起供后續(xù)排序模型使用∏灾玻可以明顯的看出喊暖,“多路召回策略”是在“計算速度”和“召回率”之間進行權(quán)衡的結(jié)果。其中撕瞧,各種簡單策略保證候選集的快速召回陵叽,從不同角度設(shè)計的策略保證召回率接近理想的狀態(tài),不至于損傷排序效果丛版。如圖1是多路召回的一個示意圖巩掺,在多路召回中,每個策略之間毫不相關(guān)页畦,所以一般可以寫并發(fā)多線程同時進行胖替,這樣可以更加高效。

圖1

圖1只是一個多路召回的例子豫缨,通扯懒睿可以使用多種不同的策略來獲取用戶排序的候選商品集合,而具體使用哪些召回策略其實是與業(yè)務(wù)強相關(guān)的 好芭,針對不同的任務(wù)就會有對于該業(yè)務(wù)真實場景下需要考慮的召回規(guī)則燃箭。例如新聞推薦,召回規(guī)則可以是“熱門視頻”舍败、“導(dǎo)演召回”招狸、“演員召回”敬拓、“最近上映“、”流行趨勢“裙戏、”類型召回“等乘凸。

三、了解冷啟動策略

冷啟動問題可以分成三類:文章冷啟動累榜,用戶冷啟動营勤,系統(tǒng)冷啟動。

  • 文章冷啟動:對于一個平臺系統(tǒng)新加入的文章壹罚,該文章沒有任何的交互記錄葛作,如何推薦給用戶的問題。(場景可以認為是渔嚷,日志數(shù)據(jù)中沒有出現(xiàn)過的文章都可以認為是冷啟動的文章)
  • 用戶冷啟動:對于一個平臺系統(tǒng)新來的用戶,該用戶還沒有文章的交互信息稠曼,如何給該用戶進行推薦形病。(場景就是,測試集中的用戶是否在測試集對應(yīng)的log數(shù)據(jù)中出現(xiàn)過霞幅,如果沒有出現(xiàn)過漠吻,那么可以認為該用戶是冷啟動用戶。但是有時候并沒有這么嚴格司恳,我們也可以自己設(shè)定某些指標來判別哪些用戶是冷啟動用戶途乃,比如通過使用時長,點擊率扔傅,留存率等等)
  • 系統(tǒng)冷啟動:就是對于一個平臺剛上線耍共,還沒有任何的相關(guān)歷史數(shù)據(jù),此時就是系統(tǒng)冷啟動猎塞,其實也就是前面兩種的一個綜合试读。

四、了解常見的排序模型

排序負責(zé)對召回層召回的千級物品進行精細排序荠耽,也叫精排層钩骇。
常見的排序方法有冒泡排序、選擇排序铝量、插入排序倘屹、希爾排序、快速排序慢叨、歸并排序和堆排序纽匙。

五、了解模型融合

在每個召回排序策略后都得到了一些候選集后拍谐,然后按照順序哄辣、平均法等完成加權(quán)融合请梢。

六、總結(jié)

推薦系統(tǒng)需要學(xué)習(xí)的東西很多力穗,代碼超多而且很復(fù)雜毅弧,召回與排序只是冰山一角,但是掌握它的基礎(chǔ)和適用場景能解決很多問題当窗。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末够坐,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子崖面,更是在濱河造成了極大的恐慌元咙,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,406評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件巫员,死亡現(xiàn)場離奇詭異庶香,居然都是意外死亡,警方通過查閱死者的電腦和手機简识,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,395評論 3 398
  • 文/潘曉璐 我一進店門赶掖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人七扰,你說我怎么就攤上這事奢赂。” “怎么了颈走?”我有些...
    開封第一講書人閱讀 167,815評論 0 360
  • 文/不壞的土叔 我叫張陵膳灶,是天一觀的道長。 經(jīng)常有香客問我立由,道長轧钓,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,537評論 1 296
  • 正文 為了忘掉前任锐膜,我火速辦了婚禮聋迎,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘枣耀。我一直安慰自己霉晕,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 68,536評論 6 397
  • 文/花漫 我一把揭開白布捞奕。 她就那樣靜靜地躺著牺堰,像睡著了一般。 火紅的嫁衣襯著肌膚如雪颅围。 梳的紋絲不亂的頭發(fā)上伟葫,一...
    開封第一講書人閱讀 52,184評論 1 308
  • 那天,我揣著相機與錄音院促,去河邊找鬼筏养。 笑死斧抱,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的渐溶。 我是一名探鬼主播辉浦,決...
    沈念sama閱讀 40,776評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼茎辐!你這毒婦竟也來了宪郊?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,668評論 0 276
  • 序言:老撾萬榮一對情侶失蹤拖陆,失蹤者是張志新(化名)和其女友劉穎弛槐,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體依啰,經(jīng)...
    沈念sama閱讀 46,212評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡乎串,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,299評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了速警。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片叹誉。...
    茶點故事閱讀 40,438評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖坏瞄,靈堂內(nèi)的尸體忽然破棺而出桂对,到底是詐尸還是另有隱情甩卓,我是刑警寧澤鸠匀,帶...
    沈念sama閱讀 36,128評論 5 349
  • 正文 年R本政府宣布,位于F島的核電站逾柿,受9級特大地震影響缀棍,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜机错,卻給世界環(huán)境...
    茶點故事閱讀 41,807評論 3 333
  • 文/蒙蒙 一爬范、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧弱匪,春花似錦青瀑、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,279評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至帘饶,卻和暖如春哑诊,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背及刻。 一陣腳步聲響...
    開封第一講書人閱讀 33,395評論 1 272
  • 我被黑心中介騙來泰國打工镀裤, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留竞阐,地道東北人。 一個月前我還...
    沈念sama閱讀 48,827評論 3 376
  • 正文 我出身青樓暑劝,卻偏偏與公主長得像骆莹,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子铃岔,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,446評論 2 359

推薦閱讀更多精彩內(nèi)容