論文閱讀“Learning to Embed Categorical Features without Embedding Tables for Recommendation”

Kang W C, Cheng D Z, Yao T, et al. Learning to Embed Categorical Features without Embedding Tables for Recommendation[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021: 840-850.

摘要翻譯

類別特征(例如用戶/項(xiàng)目id)的嵌入學(xué)習(xí)是各種推薦模型的核心搞隐，包括矩陣分解和神經(jīng)協(xié)同過(guò)濾豹休。傳統(tǒng)的標(biāo)準(zhǔn)方法創(chuàng)建了一個(gè)嵌入表，其中每一行表示每個(gè)唯一特征值的專用嵌入向量私植。然而挎塌，該方法不能有效地處理在現(xiàn)實(shí)世界的推薦系統(tǒng)中普遍存在的高基數(shù)特征和不可見(jiàn)的特征值(例如新的視頻ID)徘六。在本文中，作者提出了一種替代的嵌入框架深度哈希嵌入(DHE)榴都，用一個(gè)深度嵌入網(wǎng)絡(luò)代替嵌入表來(lái)實(shí)時(shí)計(jì)算嵌入待锈。DHE首先將特征值編碼為一個(gè)具有多個(gè)哈希函數(shù)和轉(zhuǎn)換的唯一標(biāo)識(shí)符向量，然后應(yīng)用一個(gè)DNN將該標(biāo)識(shí)符向量轉(zhuǎn)換為嵌入式嘴高。實(shí)驗(yàn)結(jié)果表明竿音，DHE在模型尺寸較小的情況下，其AUC與標(biāo)準(zhǔn)的one-hot方法相當(dāng)拴驮。編碼模塊具有確定性春瞬、不可學(xué)習(xí)性、無(wú)存儲(chǔ)性套啤，嵌入網(wǎng)絡(luò)在訓(xùn)練期間進(jìn)行更新快鱼，學(xué)習(xí)嵌入生成。該工作闡明了設(shè)計(jì)基于DNN的替代嵌入方案纲岭，而不使用嵌入表查找抹竹。

the comparison between the standard one-hot based embedding and DHE

模型淺析

基于編碼解碼嵌入框架( $T=?????$ )，作者提出了設(shè)計(jì)良好編碼的特性止潮，然后介紹了DHE中的編碼函數(shù) $??$ 和解碼函數(shù) $??$ 窃判，然后進(jìn)行側(cè)特征增強(qiáng)(side-feature-enhanced)編碼設(shè)計(jì)以實(shí)現(xiàn)泛化。

Encoding Design

作者首先給出了設(shè)計(jì)良好編碼需要滿足的特性：

Uniqueness（唯一性）：對(duì)每個(gè)特性值的編碼都應(yīng)該是唯一的喇闸。這也是全嵌入和多重哈希方法的目標(biāo)袄琳。否則，就會(huì)有一些特性值必須共享相同的編碼燃乍。碰撞的編碼使后續(xù)的解碼功能無(wú)法區(qū)分不同的特征值唆樊，這通常會(huì)損害模型的性能。
Equal Similarity（等相似性）：當(dāng)然光有獨(dú)特性是不夠的刻蟹。以二進(jìn)制編碼為例逗旁，它使用二進(jìn)制表示作為整數(shù)(例如id)的編碼：例如??(9)=[1,0,0,1]。我們可以看到舆瘪，與??(7)=[0,1,1,1]相比片效，??(8)=[1,0,0,0]更類似于??(9)红伦。作者認(rèn)為這引入了一個(gè)錯(cuò)誤的歸納偏差(ID8和ID9更相似)，這可能會(huì)誤導(dǎo)后續(xù)的解碼功能淀衣。雙哈希也有一個(gè)類似的問(wèn)題：在一個(gè)哈希函數(shù)中碰撞的兩個(gè)特征值的編碼比在兩個(gè)哈希函數(shù)中沒(méi)有碰撞的兩個(gè)值的編碼更相似昙读。作者認(rèn)為由于我們事先不知道分類特征之間的語(yǔ)義相似性，所以我們應(yīng)該使任何兩個(gè)編碼同樣相似膨桥，而不引入任何歸納偏差蛮浑。
High dimensionality（高維性）：我們希望編碼易于后續(xù)解碼函數(shù)區(qū)分不同的屬性特征。高維空間通常被認(rèn)為是更可分離的（e.g. kernel methods）只嚣，我們認(rèn)為編碼維度也應(yīng)該相對(duì)較高陵吸。例如，one-hot編碼具有一個(gè)非常大的維數(shù)（??用于全嵌入介牙，??用于哈希嵌入）
High Shannon Entropy（高香農(nóng)熵）：香農(nóng)熵（以“比特”為單位）測(cè)量某個(gè)維度中攜帶的信息量。從高熵的要求出發(fā)澳厢，從信息理論的角度來(lái)防止冗余維度环础。例如，一個(gè)編碼方案可以滿足上述三個(gè)屬性剩拢，但在某些維度上线得，所有特征值的編碼值都是相同的。因此徐伐，我們希望通過(guò)最大化每個(gè)維的熵來(lái)有效地利用所有維贯钩。例如，one-hot編碼在每個(gè)維度上都有一個(gè)非常低的熵办素，因?yàn)樵谌魏尉S度上的編碼對(duì)于大多數(shù)特征值都為0角雷。因此，one-hot編碼需要極高的維度（即??）性穿。

對(duì)于編碼需要滿足的四個(gè)特性勺三，作者在一張表中對(duì)現(xiàn)有的編碼方式進(jìn)行了總結(jié)。

可以看出需曾，雖然Binary編碼和Identity編碼沒(méi)有使用嵌入表，但并沒(méi)有滿足相同的相似性和高維的可區(qū)分性。

Dense Hash Encoding

為了滿足以上的編碼特性乓搬，作者提出了DHE磺送。
在不喪失一般性的情況下，我們假設(shè)特征值是整數(shù)谋减，因?yàn)槲覀兛梢詫⒆址涤成涞骄哂凶址５恼麛?shù)牡彻。
Encoding function $E: N -> R^k$ 使用 $??$ 個(gè)通用哈希函數(shù)將特征值映射到 $??$ 維稠密且實(shí)值的編碼。具體來(lái)說(shuō)出爹，我們有E'(s)= [??^1(s), ??^2(s), ..., ??^k(s)] 讨便，其中H^(i)：N→{1,2,...??}充甚。這里設(shè)置的??與嵌入表無(wú)關(guān)，我們只需要將其設(shè)置為一個(gè)相對(duì)較大的數(shù)字霸褒。作者這里說(shuō)universal hashing是一種很好的方法伴找，因?yàn)樵摲椒ǖ墓Ｖ悼梢跃鶆虻姆植荚趝1,2,..,m}上。對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)废菱，其輸入是實(shí)值的技矮，因此作者采用了一種適當(dāng)?shù)淖儞Q將上述哈希的整數(shù)值轉(zhuǎn)換為實(shí)值編碼。在轉(zhuǎn)換函數(shù)的選擇上作者給出了兩種選擇：

與現(xiàn)有的哈希方法僅限于少數(shù)哈列函數(shù)的哈希方法不同殊轴，作者選擇了一個(gè)相對(duì)較大的??來(lái)滿足高維特性（在實(shí)驗(yàn)中是??=1024衰倦，盡管它比??小得多）。整體的編碼流程如下：

Deep Embedding Network

該部分的Decoding Function $?? : R^?? → R^??$ 是將k維的編碼向量轉(zhuǎn)換為d維的嵌入表示特征旁理。然而樊零，所要學(xué)習(xí)的映射過(guò)程非常類似于一個(gè)高度非線性的特征變換，其中輸入特征是固定的和不可學(xué)習(xí)的孽文。
由于DNN所具有的通用函數(shù)逼近特性驻襟，作者在這一部分選擇使用DNN來(lái)學(xué)習(xí)映射。并且深度網(wǎng)絡(luò)可以使用更少的參數(shù)來(lái)近似函數(shù)芋哭。具體來(lái)說(shuō)沉衣，作者使用前饋網(wǎng)絡(luò)作為DHE的解碼函數(shù)。通過(guò)具有 $??_{NN}$ （由自身實(shí)驗(yàn)條件所決定）節(jié)點(diǎn)的隱藏層來(lái)轉(zhuǎn)換前序的k維編碼减牺。在輸出層（??個(gè)節(jié)點(diǎn)）將最后一個(gè)隱藏層轉(zhuǎn)換為??維特征值嵌入豌习。
整個(gè)學(xué)習(xí)過(guò)程獨(dú)立于n和m。因此DHE的一個(gè)獨(dú)特的特性是拔疚，它不使用任何嵌入表查找肥隆，而純粹依賴于隱藏層來(lái)動(dòng)態(tài)地記憶和計(jì)算嵌入。然而稚失，由于嵌入生成任務(wù)需要從哈希編碼到嵌入的高度非線性轉(zhuǎn)換巷屿，因此當(dāng)前的嵌入網(wǎng)絡(luò)是欠擬合的。

Side Features Enhanced Encodings for Generalization

DHE的一個(gè)有趣的擴(kuò)展利用側(cè)特性來(lái)學(xué)習(xí)更好的編碼墩虹。這有助于將結(jié)構(gòu)注入到我們的編碼中嘱巾，并實(shí)現(xiàn)特征值和新值之間更好的泛化。實(shí)現(xiàn)泛化的一種典型方法是使用為泛化提供其潛在相似性的側(cè)邊特征（稠密的特征信息以及詞袋模型特征）诫钓。

基于one-hot的完全嵌入保留了類別特征的屬性旬昭，并獨(dú)立地生成嵌入(即任意兩個(gè)id的嵌入都是獨(dú)立的)。one-hot的嵌入方式是去中心化的結(jié)構(gòu)菌湃，利于保存但很難實(shí)現(xiàn)生成问拘。相比之下，DHE方案是一個(gè)中心化的解決方案：嵌入網(wǎng)絡(luò)中的任何權(quán)值變化都會(huì)影響所有特征值的嵌入。由于DHE的解碼功能是一個(gè)神經(jīng)網(wǎng)絡(luò)骤坐，我們有很大的靈活性來(lái)修改輸入绪杏，比如合并側(cè)特征。因此作者提出了DHE的側(cè)特征增強(qiáng)編碼纽绍，希望這能提高特征值之間的泛化性蕾久，并得到新的值。增強(qiáng)編碼的一種直接方法是直接將可推廣的特性和哈希編碼連接起來(lái)拌夏。然后將增強(qiáng)的編碼輸入深度嵌入網(wǎng)絡(luò)進(jìn)行嵌入生成僧著。認(rèn)為哈希編碼為記憶提供了一個(gè)唯一的標(biāo)識(shí)符，而其他特征則支持泛化能力障簿。

現(xiàn)在包括sklearn中的hash降維表示的學(xué)習(xí)都是基于特征所在位置 $i$ 下標(biāo)進(jìn)行哈希盹愚，從而得到當(dāng)前位置 $i$ 對(duì)應(yīng)的哈希值 $h(i)$ ，然后將原始表示中特征所在位置 $i$ 的特征值 $\phi(i)$ 加到哈希位置 $h(i)$ 中站故。
而對(duì)于推薦系統(tǒng)皆怕，作者卻選擇了非常取巧的方式，對(duì)當(dāng)前的item的id進(jìn)行k次哈希西篓，得到k個(gè)值并進(jìn)行實(shí)值轉(zhuǎn)換愈腾。從而與傳統(tǒng)bow表示進(jìn)行拼接使用DNN學(xué)習(xí)并降維。

最后編輯于：2021.11.24 20:05:25

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末污淋，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子余掖，更是在濱河造成了極大的恐慌寸爆，老刑警劉巖，帶你破解...
沈念sama閱讀 216,997評(píng)論 6贊 502
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件盐欺，死亡現(xiàn)場(chǎng)離奇詭異赁豆，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)冗美，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,603評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門魔种，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人粉洼，你說(shuō)我怎么就攤上這事节预。” “怎么了属韧？”我有些...
開(kāi)封第一講書人閱讀 163,359評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵安拟，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我宵喂，道長(zhǎng)糠赦，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書人閱讀 58,309評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮拙泽，結(jié)果婚禮上淌山，老公的妹妹穿的比我還像新娘。我一直安慰自己顾瞻，他們只是感情好泼疑，可當(dāng)我...
茶點(diǎn)故事閱讀 67,346評(píng)論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著朋其，像睡著了一般王浴。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上梅猿，一...
開(kāi)封第一講書人閱讀 51,258評(píng)論 1贊 300
城市分裂傳說(shuō)
那天氓辣，我揣著相機(jī)與錄音，去河邊找鬼袱蚓。笑死钞啸，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的喇潘。我是一名探鬼主播体斩，決...
沈念sama閱讀 40,122評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼颖低！你這毒婦竟也來(lái)了絮吵？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書人閱讀 38,970評(píng)論 0贊 275
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤忱屑，失蹤者是張志新（化名）和其女友劉穎蹬敲，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體莺戒，經(jīng)...
沈念sama閱讀 45,403評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡伴嗡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,596評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了从铲。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瘪校。...
茶點(diǎn)故事閱讀 39,769評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖名段，靈堂內(nèi)的尸體忽然破棺而出阱扬，到底是詐尸還是另有隱情，我是刑警寧澤伸辟，帶...
沈念sama閱讀 35,464評(píng)論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布价认，位于F島的核電站，受9級(jí)特大地震影響自娩，放射性物質(zhì)發(fā)生泄漏用踩。R本人自食惡果不足惜渠退，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,075評(píng)論 3贊 327
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望脐彩。院中可真熱鬧碎乃，春花似錦、人聲如沸惠奸。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 31,705評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)佛南。三九已至梗掰，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間嗅回，已是汗流浹背及穗。一陣腳步聲響...
開(kāi)封第一講書人閱讀 32,848評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留绵载，地道東北人埂陆。一個(gè)月前我還...
沈念sama閱讀 47,831評(píng)論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像娃豹，于是被迫代替她去往敵國(guó)和親焚虱。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,678評(píng)論 2贊 354