??很幸運(yùn)媳危, CTR 領(lǐng)域有一個(gè)方便易用的工具包——“deepctr”冈敛,它的出現(xiàn)不僅僅降低了廣告點(diǎn)擊率預(yù)測(cè)模型的上手難度恰聘,方便進(jìn)行模型對(duì)比,也讓給了我們機(jī)會(huì)從這些優(yōu)秀的源碼中學(xué)習(xí)到構(gòu)建模型的方式癌压。
??接下來(lái)我就簡(jiǎn)單介紹一下這個(gè)庫(kù):
1. 內(nèi)容
?&emps;內(nèi)容上,作者是實(shí)現(xiàn)了 2015~2019 年一些重要的 CTR 模型滩届,譬如 2015年的 CCPM丐吓,2019年的 FGCNN 等等 券犁。類別上基本都是深度學(xué)習(xí)模型汹碱,不會(huì)涉及很多傳統(tǒng)的模型,相信作者還會(huì)持續(xù)跟進(jìn)稚新。之后我會(huì)在這里介紹一下 CCPM(Convolutional Click Prediction Model)。
2. 使用(樣例摘自作者的quick start)
??作者對(duì)模塊的集成度很高飞醉,所以在實(shí)際調(diào)用模型的時(shí)候屯阀,非常地簡(jiǎn)潔和清晰,一個(gè)完整的步驟一般可以分為 4 步進(jìn)行:
step 1: 引入模型 & 讀入數(shù)據(jù)
??引入模型指的是引入必要的庫(kù)函數(shù)及所需模型钦无,示例如下:
import pandas as pd # 表格類型的數(shù)據(jù)處理推薦使用這個(gè)庫(kù)
from sklearn.preprocessing import LabelEncoder, MinMaxScaler # 顧名思義盖袭,不解釋了,后一個(gè)應(yīng)該是給 feature value 設(shè)置最值
from sklearn.model_selection import train_test_split # 劃分訓(xùn)練集弟塞、測(cè)試集的
from deepctr.models import CCPM # 引入我想要用到的模型
from deepctr.inputs import SparseFeat, DenseFeat, get_feature_names # 處理離散數(shù)據(jù)宣肚、稠密數(shù)據(jù)以及特征名稱
data = pd.read_csv('./criteo_sample.txt')
sparse_features = ['C'+str(i) for i in range(1, 27)]
dense_features = ['I'+str(i) for i in range(1, 14)]
data[sparse_features] = data[sparse_features].fillna('-1', )
data[dense_features] = data[dense_features].fillna(0, )
target = ['label']
step 2: 數(shù)據(jù)預(yù)處理
??1. 稀疏特征(sparse features) 是需要編碼的悠栓,因?yàn)橹T如“05db9164”這樣的特征,是無(wú)法輸入到模型里面的笙瑟。有兩種常見(jiàn)的簡(jiǎn)單方法來(lái)對(duì)稀疏類別進(jìn)行編碼:
- Label Encoding: 將特征映射到 0~len(#unique)-1 的整形數(shù)值上
for feat in sparse_features:
lbe = LabelEncoder()
data[feat] = lbe.fit_transform(data[feat])
-
Hash Encoding: 將特征映射到一個(gè)固定的范圍呢癞志,譬如 0~9999,有兩種方法來(lái)實(shí)現(xiàn):
a. 在訓(xùn)練之前進(jìn)行特征 hashing
for feat in sparse_features:
lbe = HashEncoder()
data[feat] = lbe.transform(data[feat])
> b. 在訓(xùn)練過(guò)程中進(jìn)行動(dòng)態(tài) hashing 處理
??只需要在Step 3中错洁,在SparseFeat
或VarlenSparseFeat
中設(shè)置 use_hash=True
即可
- 對(duì) 稠密特征(dense features) 進(jìn)行歸一化處理
mms = MinMaxScaler(feature_range=(0, 1))
data[dense_features] = mms.fit_transform(data[dense_features])
3. 生成特征 columns
這里看的不是特別明白屯碴,有待于我自己去看源碼再回來(lái)完善
??對(duì)于 dense features导而,通過(guò) embedding 的方式將其轉(zhuǎn)換為稠密向量(dense vectors)忱叭。對(duì)于稠密的數(shù)字特征(dense numerical features)韵丑,將其拼接在全連接層的輸入張量上撵彻。
- Label Encoding
sparse_feature_columns = [SparseFeat(feat, data[feat].nunique())
for feat in sparse_features]
dense_feature_columns = [DenseFeat(feat, 1)
for feat in dense_features]
- 動(dòng)態(tài)特征哈希(Feature Hashing on the fly)
sparse_feature_columns = [SparseFeat(feat, dimension=1e6,use_hash=True) for feat in sparse_features]#The dimension can be set according to data
dense_feature_columns = [DenseFeat(feat, 1)
for feat in dense_features]
- 最后遥巴,生成 feature columns
dnn_feature_columns = sparse_feature_columns + dense_feature_columns
linear_feature_columns = sparse_feature_columns + dense_feature_columns
feature_names = get_feature_names(linear_feature_columns + dnn_feature_columns)
Step 4: 生成訓(xùn)練數(shù)據(jù)千康,并訓(xùn)練模型
train, test = train_test_split(data, test_size=0.2)
train, test = train_test_split(data, test_size=0.2)
train_model_input = {name:train[name].values for name in feature_names}
test_model_input = {name:test[name].values for name in feature_names}
model = CCPM(linear_feature_columns,dnn_feature_columns,task='binary')
model.compile("adam", "binary_crossentropy",
metrics=['binary_crossentropy'], )
history = model.fit(train_model_input, train[target].values,
batch_size=256, epochs=10, verbose=2, validation_split=0.2, )
pred_ans = model.predict(test_model_input, batch_size=256)