廣告杨伙,搜索和推薦三大系統(tǒng)其监,可謂是現(xiàn)今各大互聯(lián)網(wǎng)企業(yè)營收的三駕馬車。這三個(gè)概念互相聯(lián)系又各有區(qū)別限匣。三者都致力于將優(yōu)質(zhì)的內(nèi)容展現(xiàn)給用戶抖苦,通過用戶的點(diǎn)擊、購買米死、觀看等行為獲取收益锌历。
推薦系統(tǒng)的目的是通過搜集用戶的個(gè)人偏好,個(gè)性化地為其推薦產(chǎn)品峦筒,這一過程就包括了兩個(gè)部分:一是用戶究西、商品、上下文等各類數(shù)據(jù)的收集物喷、處理卤材,二是根據(jù)用戶來篩選不同商品的規(guī)則遮斥。前者指的是推薦系統(tǒng)中的數(shù)據(jù)流,后者則指的是推薦模型扇丛,圖解如下:
如圖所示术吗,用戶的線上行為會(huì)通過埋點(diǎn)的方式記錄下來,產(chǎn)生的日志數(shù)據(jù)一般通過Flink帆精,Kafka等流計(jì)算處理藐翎,同其他業(yè)務(wù)數(shù)據(jù)一起生成離線數(shù)據(jù)。離線數(shù)據(jù)經(jīng)過特征工程后產(chǎn)出訓(xùn)練樣本实幕,供模型使用。
從初始訓(xùn)練樣本到最終的推薦商品堤器,一般會(huì)經(jīng)歷兩個(gè)步驟:召回(Recall)和排序(Rank).
- 召回
初始訓(xùn)練樣本往往包含數(shù)以億計(jì)的海量商品昆庇,召回的功能是使用高性能的模型從中篩選出一小部分(一般為幾千個(gè))優(yōu)質(zhì)的商品。 - 排序
排序則是在召回的小商品級(jí)中闸溃,使用更加復(fù)雜的模型算法來對(duì)商品進(jìn)行打分并排序整吆,排名最高的就被推薦給用戶。
召回層和排序?qū)邮峭扑]算法的基本結(jié)構(gòu)辉川,也是現(xiàn)今各大互聯(lián)網(wǎng)公司推薦系統(tǒng)所采用的主流框架表蝙。
下面會(huì)根據(jù)圖1來展開介紹一下完整的推薦系統(tǒng)的各個(gè)部分。本篇文章主要聚焦于模型側(cè)的起點(diǎn)——特征工程乓旗。
特征工程是推薦系統(tǒng)中關(guān)鍵的一環(huán)府蛇,是整個(gè)模型訓(xùn)練的基礎(chǔ)。業(yè)界流傳了一句話:“特征工程決定了機(jī)器學(xué)習(xí)效果的上限屿愚,而模型只是無限逼近這個(gè)上限”汇跨。好的特征工程可以有效地表示用戶的興趣,刻畫用戶心理妆距,提高模型訓(xùn)練的效果穷遂。
1 特征分類
一般來說,推薦模型用到的特征主要分為以下幾種
- 用戶行為特征
用戶行為特征主要包含用戶在線產(chǎn)生的行為信息娱据,如瀏覽蚪黑,點(diǎn)擊,購買中剩,觀看等等忌穿。由于推薦系統(tǒng)的目的就是“猜你喜歡”,而用戶的興趣變化幾乎都包含在歷史行為中咽安,因此用戶特征則是我們揣摩用戶興趣的重要信息伴网,對(duì)推薦系統(tǒng)起著決定性的作用。在模型中妆棒,用戶特征往往以序列的形式使用澡腾,如電商推薦系統(tǒng)中使用的最近點(diǎn)擊/購買的商品序列沸伏,以及視頻等信息流系統(tǒng)中使用的完播序列等。 - 用戶屬性特征
即用戶的基本信息动分,如性別毅糟,年齡,地區(qū)澜公,學(xué)歷等等姆另。推薦模型一般會(huì)根據(jù)這類特征隱形地將用戶劃分為各個(gè)群體,而不同群體的興趣坟乾,習(xí)慣和購買力等都不同迹辐,因此需要為他們推薦不同類型的內(nèi)容。 - 物品屬性特征
這里的物品即推薦的內(nèi)容甚侣,如電商推薦的商品明吩,視頻推薦的視頻,資訊推薦的文章等殷费。物品屬性有很多種維度印荔,如電商商品的類別,價(jià)格详羡,品牌仍律,評(píng)價(jià)等;視頻的作者实柠,標(biāo)題水泉,語言,年代等窒盐。在推薦系統(tǒng)傳統(tǒng)的協(xié)同過濾算法中茶行,就是將用戶側(cè)和物品側(cè)的特征做交叉,找出交集的部分為用戶推薦登钥。推薦模型在學(xué)習(xí)了用戶的興趣之后畔师,也會(huì)根據(jù)物品的不同屬性來做推薦。 - 上下文特征
上下文特征是一些代表推薦場(chǎng)景狀態(tài)的特征牧牢,如用戶所在的地理位置看锉,時(shí)間等。這些特征在特定的推薦場(chǎng)景下作用很大塔鳍,如airbnb的推薦會(huì)強(qiáng)依賴于用戶所處的地理位置伯铣,只為用戶推薦附近的房源。 - 內(nèi)容特征
內(nèi)容特征是指需要經(jīng)過NLP或CV進(jìn)行處理后得到的特征轮纫,如圖片內(nèi)容腔寡,內(nèi)容來源,標(biāo)題分詞等等掌唾。
2 特征處理
根據(jù)數(shù)據(jù)類型的不同放前,特征一般可分為類別特征和數(shù)值特征
- 類別特征(categorical feature)
大部分上下文特征都是典型的類別特征忿磅,這些類別特征一般會(huì)由一個(gè)很大的整數(shù)來表示為id的形式(如用戶ID)。由于這些原始整數(shù)特征往往數(shù)量級(jí)很大凭语,分布也很稀疏葱她,一般對(duì)其進(jìn)行one-hot編碼,方便神經(jīng)網(wǎng)絡(luò)進(jìn)行處理似扔。但是推薦系統(tǒng)的特征往往都是高緯度稀疏特征吨些,one-hot編碼后的位數(shù)太多,因此引入了multi-hot編碼來減少編碼后的特征維度炒辉。近年來豪墅,NLP中的embedding方法越來越多地被應(yīng)用到特征工程中,使用一個(gè)低維的實(shí)數(shù)向量來代表高維原始特征黔寇,可以有效地提取特征中的有效信息但校。 - 數(shù)值特征(numerical feature)
數(shù)值特征又分連續(xù)特征和離散特征。離散特征可以像類別特征一樣通過one-hot encoding和embedding來處理啡氢,而連續(xù)性特征,如價(jià)格术裸,時(shí)間倘是,播放時(shí)長等,可以直接在模型中使用袭艺,也可以先進(jìn)行合理的離散化來轉(zhuǎn)化為離散型數(shù)值搀崭,再當(dāng)做離散特征操作。
除了基礎(chǔ)的類別和數(shù)值特征猾编,推薦系統(tǒng)中還會(huì)用到交叉特征(cross feature)瘤睹,即將兩個(gè)或多個(gè)特征按照一定的方式(如笛卡爾積)進(jìn)行組合,產(chǎn)出一個(gè)新的特征答倡。有些原始特征單獨(dú)使用時(shí)可能表達(dá)能力有限轰传,但與其他特征組合起來就可以表示更深層次的含義。如xxxxx
但使用交叉特征時(shí)需要注意瘪撇,如果兩個(gè)序列特征做笛卡爾積會(huì)導(dǎo)致維度爆炸增加获茬,因此一般序列特征之間不會(huì)做交叉。除了在特征端做交叉倔既,還可以借助相應(yīng)的模型結(jié)構(gòu)來實(shí)現(xiàn)不同特征的關(guān)聯(lián)恕曲,如FM,Wide & Deep等渤涌,這里可以參考我之前的文章從FM到DeepFM:淺談推薦系統(tǒng)中的模型演化佩谣。
以上就是推薦系統(tǒng)中關(guān)于特征的簡(jiǎn)要總結(jié),有何意見实蓬、建議歡迎留言指出茸俭。