論文:
論文題目:《An Input-aware Factorization Machine for Sparse Prediction》
論文地址:https://www.ijcai.org/proceedings/2019/0203.pdf
有很多工作是對FM進(jìn)行改進(jìn)峦剔,之前有過AFM础拨,F(xiàn)FM以及各自對FM魔改對工作老翘,但是沒有工作對樣本感知的FM進(jìn)行探討铛碑,今天我們就來看一下這篇關(guān)于樣本感知的FM鳖敷。
一 、背景
1.1 FM介紹
FM(Factorization Machine)元潘,因子分解機膘滨,在廣告和推薦領(lǐng)域都發(fā)揮著至關(guān)重要的作用,它可以顯式的構(gòu)建二階交叉的特征捶枢,F(xiàn)M的公式如下:
可以看到握截,F(xiàn)M通過內(nèi)積的方式計算每個feature pair的weight,通過優(yōu)化烂叔,fm可以改寫為:
據(jù)我所知谨胞,在某短視頻公司,推薦跟廣告業(yè)務(wù)線的排序模型都是lr+fm+dnn的類似結(jié)構(gòu)蒜鸡,足見fm在整個推薦/廣告領(lǐng)域的重要性胯努。
1.2 FM的缺陷
在FM的公式里牢裳,我們可以看到,不同特征pair之間計算weight的時候使用的是同一個v叶沛,也就是無論樣本如何變化蒲讯,兩個特征之間計算內(nèi)積作為weight的v都是同一個,這種方式很簡單有效灰署,但是我們知道簡單有效的東西總是伴隨著一些缺陷判帮。
FM的一個缺陷在于沒辦法針對每一條樣本來構(gòu)建獨有的特征權(quán)值,舉個論文中的例子來看溉箕,如果有一條樣本長這樣:<年輕晦墙,女性,學(xué)生肴茄,喜歡粉色>晌畅,target item是連衣裙,那么這一條樣本都對整個target item具備比較大的作用寡痰,比如說女性整個特征抗楔,跟連衣裙交叉就應(yīng)該獲得比較大的權(quán)值。我們接著來看另一條樣本:<年輕拦坠,女性连躏,學(xué)生,喜歡藍(lán)色>贪婉,target item是筆記本,這個時候女性這個特征對于筆記本這個item就不應(yīng)該賦予很大的權(quán)值卢肃。
通過上面的例子疲迂,我想你應(yīng)該大概知道了,每一條樣本中的每個特征都應(yīng)該具備自己對于target item所具備的權(quán)值莫湘,也就是通過不同特征組成的樣本對于FM中兩個向量計算內(nèi)積的weight不應(yīng)該相同尤蒿。
所以IFM(Input-aware Factorization Machines)對于FM進(jìn)行了改進(jìn),也就是讓FM變成了樣本感知的FM模型
二幅垮、IFM模型
我們先看一下IFM的公式:
可以看到在計算內(nèi)積和一階lr的時候多了個x這個東西腰池,這就意味著每個樣本的v都是自己獨有的,盡管兩條樣本都具備相同的特征忙芒,比如之前說的女性這個特征示弓,那么他們具備各自的權(quán)值,并且用這個權(quán)值的作用在原始的embedding v上面呵萨,具體而言是:
其中就是樣本x在特征i上的權(quán)值奏属,這下我們就明白了,整個IFM都是圍繞著計算這個m去的潮峦。
Factor Estimating Network
我們觀察上面的網(wǎng)絡(luò)囱皿,在結(jié)合下面的計算公式勇婴,相信你很快就能理解了:
其中Vx,就是把所有的非零的特征的embedding concat出來嘱腥,然后送DNN耕渴,在送softmax就得到了最后的m,注意齿兔,這里用h(非零特征的總數(shù))來進(jìn)行scale橱脸,也就是起到了放大的作用,這里公式應(yīng)該寫錯了愧驱,上面應(yīng)該是i不是d慰技。
三、實驗結(jié)果
我對于該論文沒有啥特別覺得經(jīng)驗的地方组砚,自我感覺IFM是在FM的修修補補吻商,與其說是樣本感知的FM模型,不如說是特征組合方式的感知FM模型糟红,不同的特征組合會導(dǎo)致不同的m艾帐,其實可以在這里用attention來做?