FM因式分解機

寫在前面

FM全稱為factorization machine, 可以用解決回歸爹梁、二分類問題
目的:解決高維稀疏數(shù)據(jù)中特征組合問題,適用于categorical feature担锤。

參考文獻

1、http://www.cnblogs.com/Matrix_Yao/p/4773221.html 梳理了ctr估計問題的大致流程具则,給出了一些工業(yè)界的方法苛骨,可以當(dāng)做入門資料
2、https://blog.csdn.net/google19890102/article/details/45532745 針對于fm講的很透徹顾稀,有些點沒提到达罗,程序很好懂
3、https://blog.csdn.net/g11d111/article/details/77430095 背景交代很清楚静秆,我的背景介紹也是copy他的
4粮揉、關(guān)于fm與LR的比較,可以參看https://www.zhihu.com/question/27043630/answer/151138052最高贊的回答
5诡宗、https://blog.csdn.net/itplus/article/details/40536025 理論進階

背景

1滔蝉、稀疏數(shù)據(jù)

強調(diào)一點,F(xiàn)M的適用對象是稀疏數(shù)據(jù)塔沃。這一點之后會有更深入的介紹蝠引。
實際中阳谍,很多特征類型是categorical型,比如性別特征螃概,有男矫夯、女兩個選項,如果將男性標記為1吊洼,女性標記為2是不太合理的训貌,因為數(shù)字是具有意義的,2是1的2倍冒窍,而不能說女性是男性的2倍递沪,所以對于categorical feature都會使用獨熱編碼one-hot encoding,將男性標記為[1,0]综液,女性標記為[0,1]款慨。其他的categorical feature還有很多,比如文章類型谬莹,娛樂檩奠、運動、軍事附帽、科技等等埠戳,這些類別之間不具有數(shù)值意義的關(guān)系,同理需要使用one-hot encoding蕉扮,關(guān)于one-hot encoding整胃,如果你還不太了解,請看https://www.imooc.com/article/35900
categorical feature做完one-hot encoding之后是非常稀疏的慢显,這在實際中十分常見爪模,而許多方法對于稀疏數(shù)據(jù)都束手無策,比如SVM荚藻,它無法在非常稀疏的數(shù)據(jù)下學(xué)習(xí)復(fù)雜的非線性內(nèi)核空間中的參數(shù)屋灌。

2、特征組合

在進行數(shù)據(jù)分析的過程中应狱,特征工程是非常重要的一步共郭,在特征工程這部分處理的好的話可以讓模型的效果事半功倍。實際中有很多特征是相關(guān)聯(lián)的疾呻,比如一般女性用戶看化妝品服裝之類的廣告比較多除嘹,而男性更青睞各種球類裝備。那很明顯岸蜗,女性這個特征與化妝品類服裝類商品有很大的關(guān)聯(lián)性尉咕,男性這個特征與球類裝備的關(guān)聯(lián)性更為密切。如果我們能將這些有關(guān)聯(lián)的特征找出來璃岳,顯然是很有意義的年缎。FM就提供了一種這樣特征組合的思路悔捶。

原理

我們還是先從線性模型說起好啦:)
一般的線性模型為

線性模型.png

n表示n維特征
如果在線性模型中加入二階特征的組合,那么會是這個樣子的
加入二階特征組合的線性模型.png

這里存在一個問題单芜,對于稀疏數(shù)據(jù)來說蜕该,xi 和xj同時不為0的情況非常少,這樣會導(dǎo)致Wij無法通過訓(xùn)練獲得洲鸠。為了解決這個問題堂淡,F(xiàn)M誕生了,我們看一下FM是如何解決這個問題的:
FM.png

這也解釋了FM因式分解機名字的由來扒腕,它是將Wij進行了拆解绢淀。FM的模型為
FM.png

求解

先不急著看如何求解的,這部分想解釋下為什么將Wij拆解成vi和vj就能夠求解了呢袜匿?這部分在作者的論文中有提到更啄,下面的圖片看著不太舒服的話稚疹,可以去看論文的第三部分:)

解釋如何求解vi居灯、vj.jpg

求解的話肯定需要一個優(yōu)化目標,就是使損失函數(shù)最小
損失函數(shù).png

其中内狗,
sigmoid.png

表示的是階躍函數(shù)Sigmoid
基于隨機梯度下降方式的求解:

sgd求解.png

image.png

這也解釋了為什么FM的計算復(fù)雜度為O(kn)
image.png

FM優(yōu)點

1怪嫌、可以對稀疏數(shù)據(jù)中的特征進行組合
2、計算時間復(fù)雜度為O(kn)
3柳沙、FM是一種可以與任何實值特征向量一起使用的通用預(yù)測器岩灭。

缺點

你發(fā)現(xiàn)了沒?在做特征組合的時候赂鲤,我們不確定是同一域內(nèi)的特征相組合(這不太合理噪径,比如男性【1,0】兩個維度數(shù)據(jù),如果組合的是性別本身這兩個維度数初,不太有意義)找爱,還是組合的是域間維度,比如性別和商品類別之間的組合是有意義的泡孩,對FM的一個改進是FFM, FFM是使得特征有自己的歸屬域车摄,比如男性【1,0】是性別域,這兩維數(shù)據(jù)不能拆開仑鸥,下次我們再詳細介紹一下FFM.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末吮播,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子眼俊,更是在濱河造成了極大的恐慌意狠,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,539評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件疮胖,死亡現(xiàn)場離奇詭異环戈,居然都是意外死亡誊役,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評論 3 396
  • 文/潘曉璐 我一進店門谷市,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蛔垢,“玉大人,你說我怎么就攤上這事迫悠∨羝幔” “怎么了?”我有些...
    開封第一講書人閱讀 165,871評論 0 356
  • 文/不壞的土叔 我叫張陵创泄,是天一觀的道長艺玲。 經(jīng)常有香客問我,道長鞠抑,這世上最難降的妖魔是什么饭聚? 我笑而不...
    開封第一講書人閱讀 58,963評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮搁拙,結(jié)果婚禮上秒梳,老公的妹妹穿的比我還像新娘。我一直安慰自己箕速,他們只是感情好酪碘,可當(dāng)我...
    茶點故事閱讀 67,984評論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著盐茎,像睡著了一般兴垦。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上字柠,一...
    開封第一講書人閱讀 51,763評論 1 307
  • 那天探越,我揣著相機與錄音,去河邊找鬼窑业。 笑死钦幔,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的数冬。 我是一名探鬼主播节槐,決...
    沈念sama閱讀 40,468評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼拐纱!你這毒婦竟也來了铜异?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤秸架,失蹤者是張志新(化名)和其女友劉穎揍庄,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體东抹,經(jīng)...
    沈念sama閱讀 45,850評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡蚂子,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,002評論 3 338
  • 正文 我和宋清朗相戀三年沃测,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片食茎。...
    茶點故事閱讀 40,144評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡蒂破,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出别渔,到底是詐尸還是另有隱情附迷,我是刑警寧澤,帶...
    沈念sama閱讀 35,823評論 5 346
  • 正文 年R本政府宣布哎媚,位于F島的核電站喇伯,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏拨与。R本人自食惡果不足惜稻据,卻給世界環(huán)境...
    茶點故事閱讀 41,483評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望买喧。 院中可真熱鬧捻悯,春花似錦、人聲如沸岗喉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽钱床。三九已至,卻和暖如春埠居,著一層夾襖步出監(jiān)牢的瞬間查牌,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評論 1 272
  • 我被黑心中介騙來泰國打工滥壕, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留纸颜,地道東北人。 一個月前我還...
    沈念sama閱讀 48,415評論 3 373
  • 正文 我出身青樓绎橘,卻偏偏與公主長得像胁孙,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子称鳞,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,092評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 寫作計劃: 線性模型LR(沒有考慮特征間的關(guān)聯(lián))——>LR +多項式模型(特征組合涮较,不適用于特征稀疏場景,泛化能力...
    流川楓AI閱讀 20,301評論 8 44
  • https://mp.weixin.qq.com/s/BuHiG9FjX-OiSNWx3KquQQ 17.隨機梯度...
    _龍雀閱讀 3,777評論 0 4
  • 該文章為轉(zhuǎn)載文章冈止,作者簡介:汪劍狂票,現(xiàn)在在出門問問負責(zé)推薦與個性化。曾在微軟雅虎工作熙暴,從事過搜索和推薦相關(guān)工作闺属。 T...
    名字真的不重要閱讀 5,276評論 0 3
  • 過年燒香是持續(xù)了不知多少年的傳統(tǒng)活動慌盯,從小到大二十多年來年年跟著父母后面看著他們買香燭;看著他們將香點起掂器,青煙裊裊...
    你好達達尼安閱讀 283評論 0 2
  • 下午出門前亚皂,天空下起了雷雨,帶著大孩上完課回來国瓮,雨已停孕讳,外面的空氣里全是潮濕,屋里顯得悶熱巍膘,隨即全將窗戶打開厂财,頓覺...
    素衣半夏閱讀 218評論 0 1