推薦系統(tǒng)架構(gòu)梳理(一):特征工程

廣告杨伙,搜索和推薦三大系統(tǒng)其监,可謂是現(xiàn)今各大互聯(lián)網(wǎng)企業(yè)營收的三駕馬車。這三個(gè)概念互相聯(lián)系又各有區(qū)別限匣。三者都致力于將優(yōu)質(zhì)的內(nèi)容展現(xiàn)給用戶抖苦,通過用戶的點(diǎn)擊、購買米死、觀看等行為獲取收益锌历。
推薦系統(tǒng)的目的是通過搜集用戶的個(gè)人偏好,個(gè)性化地為其推薦產(chǎn)品峦筒,這一過程就包括了兩個(gè)部分:一是用戶究西、商品、上下文等各類數(shù)據(jù)的收集物喷、處理卤材,二是根據(jù)用戶來篩選不同商品的規(guī)則遮斥。前者指的是推薦系統(tǒng)中的數(shù)據(jù)流,后者則指的是推薦模型扇丛,圖解如下:


圖1 推薦系統(tǒng)架構(gòu)

如圖所示术吗,用戶的線上行為會(huì)通過埋點(diǎn)的方式記錄下來,產(chǎn)生的日志數(shù)據(jù)一般通過Flink帆精,Kafka等流計(jì)算處理藐翎,同其他業(yè)務(wù)數(shù)據(jù)一起生成離線數(shù)據(jù)。離線數(shù)據(jù)經(jīng)過特征工程后產(chǎn)出訓(xùn)練樣本实幕,供模型使用。
從初始訓(xùn)練樣本到最終的推薦商品堤器,一般會(huì)經(jīng)歷兩個(gè)步驟:召回(Recall)和排序(Rank).

  • 召回
    初始訓(xùn)練樣本往往包含數(shù)以億計(jì)的海量商品昆庇,召回的功能是使用高性能的模型從中篩選出一小部分(一般為幾千個(gè))優(yōu)質(zhì)的商品。
  • 排序
    排序則是在召回的小商品級(jí)中闸溃,使用更加復(fù)雜的模型算法來對(duì)商品進(jìn)行打分并排序整吆,排名最高的就被推薦給用戶。

召回層和排序?qū)邮峭扑]算法的基本結(jié)構(gòu)辉川,也是現(xiàn)今各大互聯(lián)網(wǎng)公司推薦系統(tǒng)所采用的主流框架表蝙。
下面會(huì)根據(jù)圖1來展開介紹一下完整的推薦系統(tǒng)的各個(gè)部分。本篇文章主要聚焦于模型側(cè)的起點(diǎn)——特征工程乓旗。

特征工程是推薦系統(tǒng)中關(guān)鍵的一環(huán)府蛇,是整個(gè)模型訓(xùn)練的基礎(chǔ)。業(yè)界流傳了一句話:“特征工程決定了機(jī)器學(xué)習(xí)效果的上限屿愚,而模型只是無限逼近這個(gè)上限”汇跨。好的特征工程可以有效地表示用戶的興趣,刻畫用戶心理妆距,提高模型訓(xùn)練的效果穷遂。

1 特征分類

一般來說,推薦模型用到的特征主要分為以下幾種

  • 用戶行為特征
    用戶行為特征主要包含用戶在線產(chǎn)生的行為信息娱据,如瀏覽蚪黑,點(diǎn)擊,購買中剩,觀看等等忌穿。由于推薦系統(tǒng)的目的就是“猜你喜歡”,而用戶的興趣變化幾乎都包含在歷史行為中咽安,因此用戶特征則是我們揣摩用戶興趣的重要信息伴网,對(duì)推薦系統(tǒng)起著決定性的作用。在模型中妆棒,用戶特征往往以序列的形式使用澡腾,如電商推薦系統(tǒng)中使用的最近點(diǎn)擊/購買的商品序列沸伏,以及視頻等信息流系統(tǒng)中使用的完播序列等。
  • 用戶屬性特征
    即用戶的基本信息动分,如性別毅糟,年齡,地區(qū)澜公,學(xué)歷等等姆另。推薦模型一般會(huì)根據(jù)這類特征隱形地將用戶劃分為各個(gè)群體,而不同群體的興趣坟乾,習(xí)慣和購買力等都不同迹辐,因此需要為他們推薦不同類型的內(nèi)容。
  • 物品屬性特征
    這里的物品即推薦的內(nèi)容甚侣,如電商推薦的商品明吩,視頻推薦的視頻,資訊推薦的文章等殷费。物品屬性有很多種維度印荔,如電商商品的類別,價(jià)格详羡,品牌仍律,評(píng)價(jià)等;視頻的作者实柠,標(biāo)題水泉,語言,年代等窒盐。在推薦系統(tǒng)傳統(tǒng)的協(xié)同過濾算法中茶行,就是將用戶側(cè)和物品側(cè)的特征做交叉,找出交集的部分為用戶推薦登钥。推薦模型在學(xué)習(xí)了用戶的興趣之后畔师,也會(huì)根據(jù)物品的不同屬性來做推薦。
  • 上下文特征
    上下文特征是一些代表推薦場(chǎng)景狀態(tài)的特征牧牢,如用戶所在的地理位置看锉,時(shí)間等。這些特征在特定的推薦場(chǎng)景下作用很大塔鳍,如airbnb的推薦會(huì)強(qiáng)依賴于用戶所處的地理位置伯铣,只為用戶推薦附近的房源。
  • 內(nèi)容特征
    內(nèi)容特征是指需要經(jīng)過NLP或CV進(jìn)行處理后得到的特征轮纫,如圖片內(nèi)容腔寡,內(nèi)容來源,標(biāo)題分詞等等掌唾。

2 特征處理

根據(jù)數(shù)據(jù)類型的不同放前,特征一般可分為類別特征和數(shù)值特征

  • 類別特征(categorical feature)
    大部分上下文特征都是典型的類別特征忿磅,這些類別特征一般會(huì)由一個(gè)很大的整數(shù)來表示為id的形式(如用戶ID)。由于這些原始整數(shù)特征往往數(shù)量級(jí)很大凭语,分布也很稀疏葱她,一般對(duì)其進(jìn)行one-hot編碼,方便神經(jīng)網(wǎng)絡(luò)進(jìn)行處理似扔。但是推薦系統(tǒng)的特征往往都是高緯度稀疏特征吨些,one-hot編碼后的位數(shù)太多,因此引入了multi-hot編碼來減少編碼后的特征維度炒辉。近年來豪墅,NLP中的embedding方法越來越多地被應(yīng)用到特征工程中,使用一個(gè)低維的實(shí)數(shù)向量來代表高維原始特征黔寇,可以有效地提取特征中的有效信息但校。
  • 數(shù)值特征(numerical feature)
    數(shù)值特征又分連續(xù)特征和離散特征。離散特征可以像類別特征一樣通過one-hot encoding和embedding來處理啡氢,而連續(xù)性特征,如價(jià)格术裸,時(shí)間倘是,播放時(shí)長等,可以直接在模型中使用袭艺,也可以先進(jìn)行合理的離散化來轉(zhuǎn)化為離散型數(shù)值搀崭,再當(dāng)做離散特征操作。

除了基礎(chǔ)的類別和數(shù)值特征猾编,推薦系統(tǒng)中還會(huì)用到交叉特征(cross feature)瘤睹,即將兩個(gè)或多個(gè)特征按照一定的方式(如笛卡爾積)進(jìn)行組合,產(chǎn)出一個(gè)新的特征答倡。有些原始特征單獨(dú)使用時(shí)可能表達(dá)能力有限轰传,但與其他特征組合起來就可以表示更深層次的含義。如xxxxx
但使用交叉特征時(shí)需要注意瘪撇,如果兩個(gè)序列特征做笛卡爾積會(huì)導(dǎo)致維度爆炸增加获茬,因此一般序列特征之間不會(huì)做交叉。除了在特征端做交叉倔既,還可以借助相應(yīng)的模型結(jié)構(gòu)來實(shí)現(xiàn)不同特征的關(guān)聯(lián)恕曲,如FM,Wide & Deep等渤涌,這里可以參考我之前的文章從FM到DeepFM:淺談推薦系統(tǒng)中的模型演化佩谣。

以上就是推薦系統(tǒng)中關(guān)于特征的簡(jiǎn)要總結(jié),有何意見实蓬、建議歡迎留言指出茸俭。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末吊履,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子瓣履,更是在濱河造成了極大的恐慌率翅,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異淤井,居然都是意外死亡胡诗,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門辜贵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人归形,你說我怎么就攤上這事托慨。” “怎么了暇榴?”我有些...
    開封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵厚棵,是天一觀的道長。 經(jīng)常有香客問我蔼紧,道長婆硬,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任奸例,我火速辦了婚禮彬犯,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘查吊。我一直安慰自己谐区,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開白布逻卖。 她就那樣靜靜地躺著宋列,像睡著了一般。 火紅的嫁衣襯著肌膚如雪评也。 梳的紋絲不亂的頭發(fā)上虚茶,一...
    開封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音仇参,去河邊找鬼嘹叫。 笑死,一個(gè)胖子當(dāng)著我的面吹牛诈乒,可吹牛的內(nèi)容都是我干的罩扇。 我是一名探鬼主播,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼喂饥!你這毒婦竟也來了消约?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤员帮,失蹤者是張志新(化名)和其女友劉穎或粮,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體捞高,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡氯材,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了硝岗。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片氢哮。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖型檀,靈堂內(nèi)的尸體忽然破棺而出冗尤,到底是詐尸還是另有隱情,我是刑警寧澤胀溺,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布裂七,位于F島的核電站,受9級(jí)特大地震影響仓坞,放射性物質(zhì)發(fā)生泄漏背零。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一扯躺、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蝎困,春花似錦录语、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至始藕,卻和暖如春蒲稳,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背伍派。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來泰國打工江耀, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人诉植。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓祥国,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子舌稀,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355