這次Hulu講工業(yè)界的推薦系統(tǒng),主講人好像是個(gè)萌妹子婆誓。這講主要是如何把模型運(yùn)用到真實(shí)的推薦系統(tǒng)中扩淀。
工業(yè)界推薦系統(tǒng)是為了什么计露?
1 推薦系統(tǒng)可以應(yīng)用在不同的場景下
2 推薦系統(tǒng)是為了處理信息過載著榴,把用戶感興趣的信息呈現(xiàn)在用戶面前
3 推薦系統(tǒng)服務(wù)已經(jīng)成為互聯(lián)網(wǎng)公司(Tik Tok, Hulu,amazon等)比較重要的服務(wù)
推薦系統(tǒng)的服務(wù)化
輸入:用戶添履,上下文信息,商品列表脑又,歷史記錄暮胧,和其他的特征
處理過程:轉(zhuǎn)化輸入成特征,調(diào)用推薦模型已經(jīng)其他模型(熱門榜單问麸,廣告推薦等)往衷,商品數(shù)據(jù)是從數(shù)據(jù)儲存中粗篩得到,
輸出:有順序的前幾個(gè)商品類別
推薦系統(tǒng)的自我維護(hù):
收集并且生成訓(xùn)練數(shù)據(jù)集
訓(xùn)練模型并且更新參數(shù)
2013年Netfilx提出的推薦系統(tǒng)分三部分組成:Online,Nearline和Offline口叙。Online部分是最接近用戶的部分炼绘,可以得到最新鮮的數(shù)據(jù)嗅战,它可以快速調(diào)用模型并給予結(jié)果妄田;它對于每個(gè)請求都是即來即算,需要對模型有快速的計(jì)算速度和可靠性;它的缺點(diǎn)是沒法使用復(fù)雜的模型驮捍。Offline部分可以通過hadoop等大數(shù)據(jù)處理軟件對于數(shù)據(jù)進(jìn)行更新并儲存疟呐;它對于及時(shí)性要求比較低,它可以做一些比較重的計(jì)算东且。Nearline時(shí)間和性能介于Offine和Online之間启具。Nearline處理時(shí)間,并且同步計(jì)算到用戶事件珊泳;它通常被用來做上下文無關(guān)的計(jì)算鲁冯。
從使用場景出發(fā)
因?yàn)橥扑]算法的使用場景的不同拷沸,所以我們設(shè)計(jì)的推薦算法的也有所不同。
目前薯演,使用場景可以分為新聞推薦撞芍,視頻推薦(長視頻,短視頻跨扮,直播)和商品推薦
根據(jù)不同的商業(yè)目標(biāo)序无,可以分為CTR+轉(zhuǎn)化率(alibaba.com電商網(wǎng)站)和觀看時(shí)間(Youtube視頻網(wǎng)站)
在設(shè)計(jì)推薦算法的時(shí)候,還要考慮響應(yīng)時(shí)間衡创,最多請求次數(shù)和內(nèi)存占用等細(xì)節(jié)帝嗡。
在不同的應(yīng)用場景下,對于推薦模型會(huì)有不同的問題
短視頻(抖音璃氢、快手):
大多數(shù)視頻都是用戶生成哟玷;內(nèi)容生命周期比較短峦失;大多數(shù)視頻是冷啟動(dòng)內(nèi)容
PGC長視頻(Hulu坯认,Netflix):
用戶的決定成本是相對高;標(biāo)題黨問題
推薦算法結(jié)構(gòu)
推薦算法結(jié)構(gòu)方灾,主要分為召回算法和排序算法塘秦。召回算法會(huì)從所有可能的商品中召回上百或者上千件讼渊,召回的結(jié)果多準(zhǔn)確性要求低;排序算法會(huì)排序相關(guān)商品尊剔,在排序基礎(chǔ)上可能會(huì)有再排序可能使冷門得到曝光等等爪幻。
通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到用戶的特征,然后使用最近鄰算法在視頻庫中選取前N個(gè)視頻輸出须误。
Youtube的目標(biāo)是為了人們花更長時(shí)間在觀看視頻上挨稿。Ranker模型是對用戶和待排序的視頻打分,之后輸出前幾個(gè)視頻作為推薦內(nèi)容京痢。
在特征工程的時(shí)候奶甘,需要了解數(shù)據(jù)是否可以被得到;數(shù)據(jù)是否完整祭椰;數(shù)據(jù)的可靠性臭家。
模型訓(xùn)練
Offline訓(xùn)練(全局訓(xùn)練)
使用全部數(shù)據(jù)進(jìn)行模型訓(xùn)練,缺點(diǎn)是更新比較慢并且延遲比較高方淤;钉赁、
增量訓(xùn)練
基于更新模型上,通過批量訓(xùn)練携茂,進(jìn)行更新你踩。優(yōu)點(diǎn)是速度比全局訓(xùn)練要快,缺點(diǎn)是比較難找到全局最優(yōu)點(diǎn)。
在線學(xué)習(xí)
在線學(xué)習(xí)方法更加激進(jìn)带膜,容易陷入局部最優(yōu)吩谦,但是更適用于強(qiáng)化學(xué)習(xí)。
另外方法
對于模型進(jìn)行拆分膝藕,然后使用多種模型結(jié)合
評價(jià)指標(biāo)
離線評估的意義:
離線評估過程比較簡單;在線流量比較寶貴
離線評價(jià)指標(biāo):
Recall@K;AUC;mAP(mean average precision);NDCG(normalized discounted cumulative gain)
在線評估的意義:
一些商業(yè)指標(biāo)只能在線上計(jì)算逮京;不是所有算法都可以通過離線評估了;在線環(huán)境很難在線下保存;離線評估有時(shí)候有偏束莫。
在線評估方法:
A/B測試懒棉;interleaving
在線評價(jià)指標(biāo):
商業(yè)指標(biāo)