Deep Crossing: Web-Scale Modeling without Manually Crafted Combinatorial Features
文中開篇講了將原始特征組合成combinatorial feature的重要意義,但同時也指出創(chuàng)造有意義的組合特征是比較困難的羞海。
本文提出了Deep Crossing模型奠滑,通過deep learning的方式由模型來隱式的組合特征。
下圖是Deep Crossing的模型結(jié)構(gòu)。
可以看到Deep Crossing包含了Embedding, Stacking, Residual Unit, Scoring Layer四種類型的層经瓷。
本文中的模型用于CTR預(yù)估汤善,因此Scoring Layer用sigmoid,使用了log loss牧愁,
對于不同的問題素邪,可以靈活的進(jìn)行設(shè)計,比如對于多分類猪半,Scoring Layer用softmax兔朦,loss用交叉熵。
Embedding and Stacking Layers
embedding layer包含了一個單層的神經(jīng)網(wǎng)絡(luò)办龄,如下
激活函數(shù)用的是relu烘绽。j指的是第j個特征,XIj為nj維輸入特征俐填,Wj是mj * nj維的權(quán)重矩陣安接,bj是nj維的bias,Xoj為embed后的特征。當(dāng)mj<nj時盏檐,embedding起到了減少輸入特征維度的作用歇式。
在stacking層,把所有特征堆疊成一個向量胡野,即
K是輸入特征的數(shù)量材失。
需要注意的是,W和b是作為網(wǎng)絡(luò)的參數(shù)硫豆,會和網(wǎng)絡(luò)中的其他參數(shù)一起被優(yōu)化龙巨。
文中低于256維的特征不做embedding,直接進(jìn)入stacking層熊响。
Residual Layers
殘差層由殘差單元(the Residual Unit)構(gòu)成旨别,殘差單元如下,(沒有使用卷積層汗茄,文中提到這是第一次殘差單元被用于圖像識別之外)
residual unit的特點在于秸弛,在原始輸入特征向前傳遞兩層后,再加上原始輸入特征洪碳,也就是
W0, W1, b0, b1是中間兩層的weight和bias递览,F(xiàn)表示將X1映射到X0的函數(shù)。
把X1移到等式左邊瞳腌,即F是在擬合X0-X1的殘差绞铃。