Factorization Machine

Factorization Machine---因子分解機(jī)

①target function的推導(dǎo)

logistics regression algorithm model中使用的是特征的線性組合捞魁，最終得到的分割平面屬于線性模型局骤，但是線性模型就只能處理線性問(wèn)題惋鸥，所以對(duì)于非線性的問(wèn)題就有點(diǎn)難處理了银受，對(duì)于這些復(fù)雜問(wèn)題一般是兩種解決方法①對(duì)數(shù)據(jù)本身進(jìn)行處理妆绞，比如進(jìn)行特征轉(zhuǎn)換收捣，和函數(shù)高維擴(kuò)展等等陨收。②對(duì)算法模型本身進(jìn)行擴(kuò)展势告，比如對(duì)linear regression加上正則化懲罰項(xiàng)進(jìn)行改進(jìn)得到lasso regression或者是ridge regression岸啡。
Factorization Machine就是一種對(duì)logistics regression的一種改進(jìn)原叮，線性的部分權(quán)值組合是不變的，在后面增加了非線性的交叉項(xiàng)巡蘸。
target function： $y_{score} = w_0+\sum_{i=1}^nw_ix_i+\sum_{i=1}^{n-1}\sum_{j=i+1}^n<v_i, v_j>x_ix_j$ $<v_i, v_j> = \sum_{f=1}^kv_{i,f}*v_{j,f}$
$v_i$ 表示的是系數(shù)矩陣V的第i維向量奋隶， $v_i=(v_{i,1},v_{i,2},v_{i,3},...v_{i,k})$ ，k的大小稱為是度悦荒，度越大代表分解出來(lái)的特征就越多唯欣。對(duì)于每一個(gè)特征都會(huì)對(duì)應(yīng)有一個(gè) $k$ 維的向量。前兩部分是傳統(tǒng)的線性模型搬味，后一個(gè)部分就是將臉剛剛互不相同的特征分量之間的相互關(guān)系考慮進(jìn)來(lái)了境氢。也就是不同特征之間的吸引程度。
如果使用男女戀愛(ài)來(lái)解釋這個(gè)模型碰纬，得分score是男生對(duì)女生的一個(gè)喜歡程度萍聊， $w_0$ 代表的就是底分，可以看成是男生對(duì)于女生的第一感覺(jué)悦析。對(duì)于第二部分可以看成是女生的優(yōu)秀程度寿桨，第三部分就相當(dāng)于是男女之間的事交互關(guān)系了，也就是男女之間的感覺(jué)她按，如果兩個(gè)男生對(duì)于同一個(gè)女生的感覺(jué)是一致的牛隅，那么他們的 $v$ 就是一致的，從本質(zhì)上說(shuō)酌泰，因子分解機(jī)也是探索一種相似性媒佣，其與協(xié)同過(guò)濾算法是類似的，但是這兩者的區(qū)別在于陵刹，因子分解機(jī)同時(shí)考慮了男生和男生間的相似性以及女生和女生間的相似性默伍，但是協(xié)同過(guò)濾要么只考慮男生之間的相似性，要么只考慮女生之間的相似性衰琐。

優(yōu)化求解target function

$y_{score} = w_0+\sum_{i=1}^nw_ix_i+\sum_{i=1}^{n-1}\sum_{j=i+1}^n<v_i, v_j>x_ix_j$ $<v_i, v_j> = \sum_{f=1}^kv_{i,f}*v_{j,f}$ 對(duì)于原始的target function計(jì)算復(fù)雜度是 $O(n^2)$ 也糊，采用公式 $((a+b+c)^2-a^2-b^2-c^2)/2$ 的公式。于是化簡(jiǎn)一波：

這樣就成功的把復(fù)雜度降到了

O(n)

FM可以解決的問(wèn)題主要是四種：
1.回歸問(wèn)題：這時(shí)候的error function： $L = \frac{1}{2}\sum_{i=1}^m(y_i^{'}-y_i)^2$
2.二分類問(wèn)題： $L = \sum_{i=1}^m-ln(sigmoid(y_i^{'}y_i))$
3.排序問(wèn)題羡宙。
4,推薦系統(tǒng)狸剃。
接下來(lái)就是模型的求解，自然就是求導(dǎo)了狗热，我們做的是二分類問(wèn)題钞馁，所以采用的就是第二種loss function求導(dǎo)，按照求導(dǎo)常規(guī)求取即可：

w_0 = w_0-\alpha[1-sigmoid(y^{'}y)]*y

w_i = w_i-\alpha[1-sigmoid(y^{'}y)]*y*x_i

v_{i,f} = v_{i,f}-\alpha[1-sigmoid(y^{'}y)]*y*[x_i\sum_{j=1}^nv_{j,f}x_j-v_{i,f}x_i^2]