論文閱讀“Learning to Embed Categorical Features without Embedding Tables for Recommendation”

Kang W C, Cheng D Z, Yao T, et al. Learning to Embed Categorical Features without Embedding Tables for Recommendation[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021: 840-850.

摘要翻譯

類別特征(例如用戶/項(xiàng)目id)的嵌入學(xué)習(xí)是各種推薦模型的核心搞隐,包括矩陣分解和神經(jīng)協(xié)同過(guò)濾豹休。傳統(tǒng)的標(biāo)準(zhǔn)方法創(chuàng)建了一個(gè)嵌入表,其中每一行表示每個(gè)唯一特征值的專用嵌入向量私植。然而挎塌,該方法不能有效地處理在現(xiàn)實(shí)世界的推薦系統(tǒng)中普遍存在的高基數(shù)特征和不可見(jiàn)的特征值(例如新的視頻ID)徘六。在本文中,作者提出了一種替代的嵌入框架深度哈希嵌入(DHE)榴都,用一個(gè)深度嵌入網(wǎng)絡(luò)代替嵌入表來(lái)實(shí)時(shí)計(jì)算嵌入待锈。DHE首先將特征值編碼為一個(gè)具有多個(gè)哈希函數(shù)和轉(zhuǎn)換的唯一標(biāo)識(shí)符向量,然后應(yīng)用一個(gè)DNN將該標(biāo)識(shí)符向量轉(zhuǎn)換為嵌入式嘴高。實(shí)驗(yàn)結(jié)果表明竿音,DHE在模型尺寸較小的情況下,其AUC與標(biāo)準(zhǔn)的one-hot方法相當(dāng)拴驮。編碼模塊具有確定性春瞬、不可學(xué)習(xí)性、無(wú)存儲(chǔ)性套啤,嵌入網(wǎng)絡(luò)在訓(xùn)練期間進(jìn)行更新快鱼,學(xué)習(xí)嵌入生成。該工作闡明了設(shè)計(jì)基于DNN的替代嵌入方案纲岭,而不使用嵌入表查找抹竹。


the comparison between the standard one-hot based embedding and DHE
模型淺析

基于編碼解碼嵌入框架(T=?????),作者提出了設(shè)計(jì)良好編碼的特性止潮,然后介紹了DHE中的編碼函數(shù)??和解碼函數(shù)??窃判,然后進(jìn)行側(cè)特征增強(qiáng)(side-feature-enhanced)編碼設(shè)計(jì)以實(shí)現(xiàn)泛化。

Encoding Design

作者首先給出了設(shè)計(jì)良好編碼需要滿足的特性:

  • Uniqueness(唯一性):對(duì)每個(gè)特性值的編碼都應(yīng)該是唯一的喇闸。這也是全嵌入和多重哈希方法的目標(biāo)袄琳。否則,就會(huì)有一些特性值必須共享相同的編碼燃乍。碰撞的編碼使后續(xù)的解碼功能無(wú)法區(qū)分不同的特征值唆樊,這通常會(huì)損害模型的性能。
  • Equal Similarity(等相似性):當(dāng)然光有獨(dú)特性是不夠的刻蟹。以二進(jìn)制編碼為例逗旁,它使用二進(jìn)制表示作為整數(shù)(例如id)的編碼:例如??(9)=[1,0,0,1]。我們可以看到舆瘪,與??(7)=[0,1,1,1]相比片效,??(8)=[1,0,0,0]更類似于??(9)红伦。作者認(rèn)為這引入了一個(gè)錯(cuò)誤的歸納偏差(ID8和ID9更相似),這可能會(huì)誤導(dǎo)后續(xù)的解碼功能淀衣。雙哈希也有一個(gè)類似的問(wèn)題:在一個(gè)哈希函數(shù)中碰撞的兩個(gè)特征值的編碼比在兩個(gè)哈希函數(shù)中沒(méi)有碰撞的兩個(gè)值的編碼更相似昙读。作者認(rèn)為由于我們事先不知道分類特征之間的語(yǔ)義相似性,所以我們應(yīng)該使任何兩個(gè)編碼同樣相似膨桥,而不引入任何歸納偏差蛮浑。
  • High dimensionality(高維性):我們希望編碼易于后續(xù)解碼函數(shù)區(qū)分不同的屬性特征。高維空間通常被認(rèn)為是更可分離的(e.g. kernel methods)只嚣,我們認(rèn)為編碼維度也應(yīng)該相對(duì)較高陵吸。例如,one-hot編碼具有一個(gè)非常大的維數(shù)(??用于全嵌入介牙,??用于哈希嵌入)
  • High Shannon Entropy(高香農(nóng)熵):香農(nóng)熵(以“比特”為單位)測(cè)量某個(gè)維度中攜帶的信息量。從高熵的要求出發(fā)澳厢,從信息理論的角度來(lái)防止冗余維度环础。例如,一個(gè)編碼方案可以滿足上述三個(gè)屬性剩拢,但在某些維度上线得,所有特征值的編碼值都是相同的。因此徐伐,我們希望通過(guò)最大化每個(gè)維的熵來(lái)有效地利用所有維贯钩。例如,one-hot編碼在每個(gè)維度上都有一個(gè)非常低的熵办素,因?yàn)樵谌魏尉S度上的編碼對(duì)于大多數(shù)特征值都為0角雷。因此,one-hot編碼需要極高的維度(即??)性穿。

    對(duì)于編碼需要滿足的四個(gè)特性勺三,作者在一張表中對(duì)現(xiàn)有的編碼方式進(jìn)行了總結(jié)。

    可以看出需曾,雖然Binary編碼和Identity編碼沒(méi)有使用嵌入表,但并沒(méi)有滿足相同的相似性和高維的可區(qū)分性。
Dense Hash Encoding

為了滿足以上的編碼特性乓搬,作者提出了DHE磺送。
在不喪失一般性的情況下,我們假設(shè)特征值是整數(shù)谋减,因?yàn)槲覀兛梢詫⒆址涤成涞骄哂凶址5恼麛?shù)牡彻。
Encoding function E: N -> R^k使用??個(gè)通用哈希函數(shù)將特征值映射到??維稠密且實(shí)值的編碼。具體來(lái)說(shuō)出爹,我們有E'(s)= [??^1(s), ??^2(s), ..., ??^k(s)] 讨便,其中H^(i):N→{1,2,...??}充甚。這里設(shè)置的??與嵌入表無(wú)關(guān),我們只需要將其設(shè)置為一個(gè)相對(duì)較大的數(shù)字霸褒。作者這里說(shuō)universal hashing是一種很好的方法伴找,因?yàn)樵摲椒ǖ墓V悼梢跃鶆虻姆植荚趝1,2,..,m}上。對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)废菱,其輸入是實(shí)值的技矮,因此作者采用了一種適當(dāng)?shù)淖儞Q將上述哈希的整數(shù)值轉(zhuǎn)換為實(shí)值編碼。在轉(zhuǎn)換函數(shù)的選擇上作者給出了兩種選擇:

與現(xiàn)有的哈希方法僅限于少數(shù)哈列函數(shù)的哈希方法不同殊轴,作者選擇了一個(gè)相對(duì)較大的??來(lái)滿足高維特性(在實(shí)驗(yàn)中是??=1024衰倦,盡管它比??小得多)。整體的編碼流程如下:
Deep Embedding Network

該部分的Decoding Function ?? : R^?? → R^?? 是將k維的編碼向量轉(zhuǎn)換為d維的嵌入表示特征旁理。然而樊零,所要學(xué)習(xí)的映射過(guò)程非常類似于一個(gè)高度非線性的特征變換,其中輸入特征是固定的和不可學(xué)習(xí)的孽文。
由于DNN所具有的通用函數(shù)逼近特性驻襟,作者在這一部分選擇使用DNN來(lái)學(xué)習(xí)映射。并且深度網(wǎng)絡(luò)可以使用更少的參數(shù)來(lái)近似函數(shù)芋哭。具體來(lái)說(shuō)沉衣,作者使用前饋網(wǎng)絡(luò)作為DHE的解碼函數(shù)。通過(guò)具有??_{NN}(由自身實(shí)驗(yàn)條件所決定)節(jié)點(diǎn)的隱藏層來(lái)轉(zhuǎn)換前序的k維編碼减牺。在輸出層(??個(gè)節(jié)點(diǎn))將最后一個(gè)隱藏層轉(zhuǎn)換為??維特征值嵌入豌习。
整個(gè)學(xué)習(xí)過(guò)程獨(dú)立于n和m。因此DHE的一個(gè)獨(dú)特的特性是拔疚,它不使用任何嵌入表查找肥隆,而純粹依賴于隱藏層來(lái)動(dòng)態(tài)地記憶和計(jì)算嵌入。然而稚失,由于嵌入生成任務(wù)需要從哈希編碼到嵌入的高度非線性轉(zhuǎn)換巷屿,因此當(dāng)前的嵌入網(wǎng)絡(luò)是欠擬合的。

Side Features Enhanced Encodings for Generalization

DHE的一個(gè)有趣的擴(kuò)展利用側(cè)特性來(lái)學(xué)習(xí)更好的編碼墩虹。這有助于將結(jié)構(gòu)注入到我們的編碼中嘱巾,并實(shí)現(xiàn)特征值和新值之間更好的泛化。實(shí)現(xiàn)泛化的一種典型方法是使用為泛化提供其潛在相似性的側(cè)邊特征(稠密的特征信息以及詞袋模型特征)诫钓。

基于one-hot的完全嵌入保留了類別特征的屬性旬昭,并獨(dú)立地生成嵌入(即任意兩個(gè)id的嵌入都是獨(dú)立的)。one-hot的嵌入方式是去中心化的結(jié)構(gòu)菌湃,利于保存但很難實(shí)現(xiàn)生成问拘。相比之下,DHE方案是一個(gè)中心化的解決方案:嵌入網(wǎng)絡(luò)中的任何權(quán)值變化都會(huì)影響所有特征值的嵌入。由于DHE的解碼功能是一個(gè)神經(jīng)網(wǎng)絡(luò)骤坐,我們有很大的靈活性來(lái)修改輸入绪杏,比如合并側(cè)特征。因此作者提出了DHE的側(cè)特征增強(qiáng)編碼纽绍,希望這能提高特征值之間的泛化性蕾久,并得到新的值。增強(qiáng)編碼的一種直接方法是直接將可推廣的特性和哈希編碼連接起來(lái)拌夏。然后將增強(qiáng)的編碼輸入深度嵌入網(wǎng)絡(luò)進(jìn)行嵌入生成僧著。認(rèn)為哈希編碼為記憶提供了一個(gè)唯一的標(biāo)識(shí)符,而其他特征則支持泛化能力障簿。


現(xiàn)在包括sklearn中的hash降維表示的學(xué)習(xí)都是基于特征所在位置i下標(biāo)進(jìn)行哈希盹愚,從而得到當(dāng)前位置i對(duì)應(yīng)的哈希值h(i),然后將原始表示中特征所在位置i的特征值\phi(i)加到哈希位置h(i)中站故。
而對(duì)于推薦系統(tǒng)皆怕,作者卻選擇了非常取巧的方式,對(duì)當(dāng)前的item的id進(jìn)行k次哈希西篓,得到k個(gè)值并進(jìn)行實(shí)值轉(zhuǎn)換愈腾。從而與傳統(tǒng)bow表示進(jìn)行拼接使用DNN學(xué)習(xí)并降維。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末污淋,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子余掖,更是在濱河造成了極大的恐慌寸爆,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,997評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件盐欺,死亡現(xiàn)場(chǎng)離奇詭異赁豆,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)冗美,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,603評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門魔种,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人粉洼,你說(shuō)我怎么就攤上這事节预。” “怎么了属韧?”我有些...
    開(kāi)封第一講書人閱讀 163,359評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵安拟,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我宵喂,道長(zhǎng)糠赦,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 58,309評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮拙泽,結(jié)果婚禮上淌山,老公的妹妹穿的比我還像新娘。我一直安慰自己顾瞻,他們只是感情好泼疑,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,346評(píng)論 6 390
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著朋其,像睡著了一般王浴。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上梅猿,一...
    開(kāi)封第一講書人閱讀 51,258評(píng)論 1 300
  • 那天氓辣,我揣著相機(jī)與錄音,去河邊找鬼袱蚓。 笑死钞啸,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的喇潘。 我是一名探鬼主播体斩,決...
    沈念sama閱讀 40,122評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼颖低!你這毒婦竟也來(lái)了絮吵?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 38,970評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤忱屑,失蹤者是張志新(化名)和其女友劉穎蹬敲,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體莺戒,經(jīng)...
    沈念sama閱讀 45,403評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡伴嗡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,596評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了从铲。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瘪校。...
    茶點(diǎn)故事閱讀 39,769評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖名段,靈堂內(nèi)的尸體忽然破棺而出阱扬,到底是詐尸還是另有隱情,我是刑警寧澤伸辟,帶...
    沈念sama閱讀 35,464評(píng)論 5 344
  • 正文 年R本政府宣布价认,位于F島的核電站,受9級(jí)特大地震影響自娩,放射性物質(zhì)發(fā)生泄漏用踩。R本人自食惡果不足惜渠退,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,075評(píng)論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望脐彩。 院中可真熱鬧碎乃,春花似錦、人聲如沸惠奸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,705評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)佛南。三九已至梗掰,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間嗅回,已是汗流浹背及穗。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,848評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留绵载,地道東北人埂陆。 一個(gè)月前我還...
    沈念sama閱讀 47,831評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像娃豹,于是被迫代替她去往敵國(guó)和親焚虱。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,678評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容