問題
傳統(tǒng)線性模型問題:
1 稀疏性:onehot帶來數(shù)據(jù)稀疏性(尤其是id特征)幌氮,使得特征空間變大吉拳;
2 線性組合的權重,訓練不充分嗦玖,也會帶來稀疏性;觀察樣本中未出現(xiàn)交互的特征分列跃脊,不能對相應的參數(shù)進行估計;
解決方案:
引入隱向量苛吱,相當于對特征embedding酪术,使用隱向量內(nèi)積作為交叉特征向量;交叉特征參數(shù)W=VV翠储,所以也被稱為矩陣分解绘雁。
模型
模型
復雜度
可由O(kn**2)將至O(kn),平均復雜度更低
image.png
策略
一般回歸和二分類(多分類權重系數(shù)過多)
回歸
lse最小平方誤差
二分類
hinge損失或者ligit loss
算法
參數(shù)分三部分,梯度如下
正則
image.png
超參
image.png
問題
1改進點有哪些:
a.控制k的取值援所,k高庐舟,表達能力強,k小住拭,利用低秩近似的優(yōu)勢挪略,提高泛化性;
b.特征交叉滔岳,引入embedding思想杠娱,對每一個特征embedding;
c. 復雜度線性谱煤。
參考:
https://www.cnblogs.com/pinard/p/6370127.html
http://www.52caml.com/head_first_ml/ml-chapter9-factorization-family/