Kang W C, Cheng D Z, Yao T, et al. Learning to Embed Categorical Features without Embedding Tables for Recommendation[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021: 840-850.
摘要翻譯
類別特征(例如用戶/項(xiàng)目id)的嵌入學(xué)習(xí)是各種推薦模型的核心搞隐,包括矩陣分解和神經(jīng)協(xié)同過(guò)濾豹休。傳統(tǒng)的標(biāo)準(zhǔn)方法創(chuàng)建了一個(gè)嵌入表,其中每一行表示每個(gè)唯一特征值的專用嵌入向量私植。然而挎塌,該方法不能有效地處理在現(xiàn)實(shí)世界的推薦系統(tǒng)中普遍存在的高基數(shù)特征和不可見(jiàn)的特征值(例如新的視頻ID)徘六。在本文中,作者提出了一種替代的嵌入框架深度哈希嵌入(DHE)榴都,用一個(gè)深度嵌入網(wǎng)絡(luò)代替嵌入表來(lái)實(shí)時(shí)計(jì)算嵌入待锈。DHE首先將特征值編碼為一個(gè)具有多個(gè)哈希函數(shù)和轉(zhuǎn)換的唯一標(biāo)識(shí)符向量,然后應(yīng)用一個(gè)DNN將該標(biāo)識(shí)符向量轉(zhuǎn)換為嵌入式嘴高。實(shí)驗(yàn)結(jié)果表明竿音,DHE在模型尺寸較小的情況下,其AUC與標(biāo)準(zhǔn)的one-hot方法相當(dāng)拴驮。編碼模塊具有確定性春瞬、不可學(xué)習(xí)性、無(wú)存儲(chǔ)性套啤,嵌入網(wǎng)絡(luò)在訓(xùn)練期間進(jìn)行更新快鱼,學(xué)習(xí)嵌入生成。該工作闡明了設(shè)計(jì)基于DNN的替代嵌入方案纲岭,而不使用嵌入表查找抹竹。
模型淺析
基于編碼解碼嵌入框架(),作者提出了設(shè)計(jì)良好編碼的特性止潮,然后介紹了DHE中的編碼函數(shù)
和解碼函數(shù)
窃判,然后進(jìn)行側(cè)特征增強(qiáng)(side-feature-enhanced)編碼設(shè)計(jì)以實(shí)現(xiàn)泛化。
Encoding Design
作者首先給出了設(shè)計(jì)良好編碼需要滿足的特性:
- Uniqueness(唯一性):對(duì)每個(gè)特性值的編碼都應(yīng)該是唯一的喇闸。這也是全嵌入和多重哈希方法的目標(biāo)袄琳。否則,就會(huì)有一些特性值必須共享相同的編碼燃乍。碰撞的編碼使后續(xù)的解碼功能無(wú)法區(qū)分不同的特征值唆樊,這通常會(huì)損害模型的性能。
- Equal Similarity(等相似性):當(dāng)然光有獨(dú)特性是不夠的刻蟹。以二進(jìn)制編碼為例逗旁,它使用二進(jìn)制表示作為整數(shù)(例如id)的編碼:例如??(9)=[1,0,0,1]。我們可以看到舆瘪,與??(7)=[0,1,1,1]相比片效,??(8)=[1,0,0,0]更類似于??(9)红伦。作者認(rèn)為這引入了一個(gè)錯(cuò)誤的歸納偏差(ID8和ID9更相似),這可能會(huì)誤導(dǎo)后續(xù)的解碼功能淀衣。雙哈希也有一個(gè)類似的問(wèn)題:在一個(gè)哈希函數(shù)中碰撞的兩個(gè)特征值的編碼比在兩個(gè)哈希函數(shù)中沒(méi)有碰撞的兩個(gè)值的編碼更相似昙读。作者認(rèn)為由于我們事先不知道分類特征之間的語(yǔ)義相似性,所以我們應(yīng)該使任何兩個(gè)編碼同樣相似膨桥,而不引入任何歸納偏差蛮浑。
- High dimensionality(高維性):我們希望編碼易于后續(xù)解碼函數(shù)區(qū)分不同的屬性特征。高維空間通常被認(rèn)為是更可分離的(e.g. kernel methods)只嚣,我們認(rèn)為編碼維度也應(yīng)該相對(duì)較高陵吸。例如,one-hot編碼具有一個(gè)非常大的維數(shù)(??用于全嵌入介牙,??用于哈希嵌入)
-
High Shannon Entropy(高香農(nóng)熵):香農(nóng)熵(以“比特”為單位)測(cè)量某個(gè)維度中攜帶的信息量。從高熵的要求出發(fā)澳厢,從信息理論的角度來(lái)防止冗余維度环础。例如,一個(gè)編碼方案可以滿足上述三個(gè)屬性剩拢,但在某些維度上线得,所有特征值的編碼值都是相同的。因此徐伐,我們希望通過(guò)最大化每個(gè)維的熵來(lái)有效地利用所有維贯钩。例如,one-hot編碼在每個(gè)維度上都有一個(gè)非常低的熵办素,因?yàn)樵谌魏尉S度上的編碼對(duì)于大多數(shù)特征值都為0角雷。因此,one-hot編碼需要極高的維度(即??)性穿。
對(duì)于編碼需要滿足的四個(gè)特性勺三,作者在一張表中對(duì)現(xiàn)有的編碼方式進(jìn)行了總結(jié)。
可以看出需曾,雖然Binary編碼和Identity編碼沒(méi)有使用嵌入表,但并沒(méi)有滿足相同的相似性和高維的可區(qū)分性。
Dense Hash Encoding
為了滿足以上的編碼特性乓搬,作者提出了DHE磺送。
在不喪失一般性的情況下,我們假設(shè)特征值是整數(shù)谋减,因?yàn)槲覀兛梢詫⒆址涤成涞骄哂凶址5恼麛?shù)牡彻。
Encoding function 使用
個(gè)通用哈希函數(shù)將特征值映射到
維稠密且實(shí)值的編碼。具體來(lái)說(shuō)出爹,我們有E'(s)= [??^1(s), ??^2(s), ..., ??^k(s)] 讨便,其中H^(i):N→{1,2,...??}充甚。這里設(shè)置的??與嵌入表無(wú)關(guān),我們只需要將其設(shè)置為一個(gè)相對(duì)較大的數(shù)字霸褒。作者這里說(shuō)universal hashing是一種很好的方法伴找,因?yàn)樵摲椒ǖ墓V悼梢跃鶆虻姆植荚趝1,2,..,m}上。對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)废菱,其輸入是實(shí)值的技矮,因此作者采用了一種適當(dāng)?shù)淖儞Q將上述哈希的整數(shù)值轉(zhuǎn)換為實(shí)值編碼。在轉(zhuǎn)換函數(shù)的選擇上作者給出了兩種選擇:
Deep Embedding Network
該部分的Decoding Function 是將k維的編碼向量轉(zhuǎn)換為d維的嵌入表示特征旁理。然而樊零,所要學(xué)習(xí)的映射過(guò)程非常類似于一個(gè)高度非線性的特征變換,其中輸入特征是固定的和不可學(xué)習(xí)的孽文。
由于DNN所具有的通用函數(shù)逼近特性驻襟,作者在這一部分選擇使用DNN來(lái)學(xué)習(xí)映射。并且深度網(wǎng)絡(luò)可以使用更少的參數(shù)來(lái)近似函數(shù)芋哭。具體來(lái)說(shuō)沉衣,作者使用前饋網(wǎng)絡(luò)作為DHE的解碼函數(shù)。通過(guò)具有(由自身實(shí)驗(yàn)條件所決定)節(jié)點(diǎn)的隱藏層來(lái)轉(zhuǎn)換前序的k維編碼减牺。在輸出層(??個(gè)節(jié)點(diǎn))將最后一個(gè)隱藏層轉(zhuǎn)換為??維特征值嵌入豌习。
整個(gè)學(xué)習(xí)過(guò)程獨(dú)立于n和m。因此DHE的一個(gè)獨(dú)特的特性是拔疚,它不使用任何嵌入表查找肥隆,而純粹依賴于隱藏層來(lái)動(dòng)態(tài)地記憶和計(jì)算嵌入。然而稚失,由于嵌入生成任務(wù)需要從哈希編碼到嵌入的高度非線性轉(zhuǎn)換巷屿,因此當(dāng)前的嵌入網(wǎng)絡(luò)是欠擬合的。
Side Features Enhanced Encodings for Generalization
DHE的一個(gè)有趣的擴(kuò)展利用側(cè)特性來(lái)學(xué)習(xí)更好的編碼墩虹。這有助于將結(jié)構(gòu)注入到我們的編碼中嘱巾,并實(shí)現(xiàn)特征值和新值之間更好的泛化。實(shí)現(xiàn)泛化的一種典型方法是使用為泛化提供其潛在相似性的側(cè)邊特征(稠密的特征信息以及詞袋模型特征)诫钓。
基于one-hot的完全嵌入保留了類別特征的屬性旬昭,并獨(dú)立地生成嵌入(即任意兩個(gè)id的嵌入都是獨(dú)立的)。one-hot的嵌入方式是去中心化的結(jié)構(gòu)菌湃,利于保存但很難實(shí)現(xiàn)生成问拘。相比之下,DHE方案是一個(gè)中心化的解決方案:嵌入網(wǎng)絡(luò)中的任何權(quán)值變化都會(huì)影響所有特征值的嵌入。由于DHE的解碼功能是一個(gè)神經(jīng)網(wǎng)絡(luò)骤坐,我們有很大的靈活性來(lái)修改輸入绪杏,比如合并側(cè)特征。因此作者提出了DHE的側(cè)特征增強(qiáng)編碼纽绍,希望這能提高特征值之間的泛化性蕾久,并得到新的值。增強(qiáng)編碼的一種直接方法是直接將可推廣的特性和哈希編碼連接起來(lái)拌夏。然后將增強(qiáng)的編碼輸入深度嵌入網(wǎng)絡(luò)進(jìn)行嵌入生成僧著。認(rèn)為哈希編碼為記憶提供了一個(gè)唯一的標(biāo)識(shí)符,而其他特征則支持泛化能力障簿。
現(xiàn)在包括sklearn中的hash降維表示的學(xué)習(xí)都是基于特征所在位置下標(biāo)進(jìn)行哈希盹愚,從而得到當(dāng)前位置
對(duì)應(yīng)的哈希值
,然后將原始表示中特征所在位置
的特征值
加到哈希位置
中站故。
而對(duì)于推薦系統(tǒng)皆怕,作者卻選擇了非常取巧的方式,對(duì)當(dāng)前的item的id進(jìn)行k次哈希西篓,得到k個(gè)值并進(jìn)行實(shí)值轉(zhuǎn)換愈腾。從而與傳統(tǒng)bow表示進(jìn)行拼接使用DNN學(xué)習(xí)并降維。