【推薦-阿里--可視化分析】Visualizing and Understanding Deep Neural Networks in CTR Prediction

論文作者： Lin Guo彼棍、Hui Ye民泵、Wenbo Su、Henhuan Liu扣墩、Kai Sun、Hang Xiang

論文下載鏈接：arxiv

ABSTRACT

????盡管深度學(xué)習(xí)在許多任務(wù)中已經(jīng)得到了廣泛應(yīng)用扛吞，但是深度神經(jīng)網(wǎng)絡(luò)的可解釋性仍是一個(gè)巨大挑戰(zhàn)呻惕。近年來，人們?cè)趫D像處理和自然語言處理領(lǐng)域?qū)ι顚由窠?jīng)網(wǎng)絡(luò)的機(jī)制進(jìn)行了許多可視化和分析的研究喻粹。在這篇文章中蟆融，我們提出了我們的方法來可視化和理解在商業(yè)中扮有重要角色的CTR預(yù)測(cè)深度神經(jīng)網(wǎng)絡(luò)草巡。我們?cè)诰€上的廣告系統(tǒng)的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)守呜，這些數(shù)據(jù)每天都有不同的分布。為了了解模型的機(jī)制和效果山憨，我們?cè)谏窠?jīng)元水平上探測(cè)模型的內(nèi)部狀態(tài)查乒。此外，還實(shí)現(xiàn)了一種探測(cè)方法來測(cè)試模型的每個(gè)網(wǎng)絡(luò)層的效果郁竟。并且玛迄，我們基于反向傳播算法來計(jì)算每個(gè)輸入特征的顯著性得分以衡量每個(gè)輸入特征的影響力。文中還討論了在理解棚亩、監(jiān)控蓖议、診斷和優(yōu)化模型等方面的實(shí)際應(yīng)用。

1 INTRODUCTION

? ??點(diǎn)擊率預(yù)測(cè)在計(jì)算廣告中起著至關(guān)重要的作用讥蟆。在點(diǎn)擊廣告系統(tǒng)中勒虾，廣告是根據(jù)競(jìng)拍價(jià)格和預(yù)測(cè)點(diǎn)擊率的乘積進(jìn)行排名的。因此瘸彤，數(shù)十億業(yè)務(wù)的收入在很大程度上依賴于CTR預(yù)測(cè)模型的效果修然。

????深度學(xué)習(xí)技術(shù)已經(jīng)成功地應(yīng)用于CTR預(yù)測(cè)任務(wù)[6，7，23]愕宋。深度神經(jīng)網(wǎng)絡(luò)（DNNs）由多層神經(jīng)元組成玻靡，具有從特征中提取非線性模式的能力，從而減輕了非線性特征工程的負(fù)擔(dān)中贝。然而深度學(xué)習(xí)模式的工作機(jī)制仍舊沒有很好的可解釋性囤捻。這種缺失一直是深度學(xué)習(xí)發(fā)展的障礙，引起了對(duì)深度學(xué)習(xí)應(yīng)用可靠性的關(guān)注邻寿，尤其是在重要的工業(yè)實(shí)踐中最蕾。

? ??在圖像處理[15，18老厌，20瘟则，21，26枝秤，29]和自然語言處理[3醋拧，4，14淀弹，16丹壕，27]，深度學(xué)習(xí)模型的可視化和可解釋性方面取得了許多新進(jìn)展薇溃。在本文中菌赖，我們提出了一系列的方法來可視化和分析一個(gè)簡(jiǎn)單的DNN模型，使用搜索廣告平臺(tái)的生產(chǎn)數(shù)據(jù)進(jìn)行CTR預(yù)測(cè)沐序。在以日為單位的數(shù)據(jù)集上研究模型的效果衰減規(guī)律琉用，并比較不同訓(xùn)練階段的分?jǐn)?shù)分布情況。我們?cè)谏窠?jīng)元水平上探測(cè)模型的內(nèi)部狀態(tài)策幼。研究隱層神經(jīng)元狀態(tài)的統(tǒng)計(jì)特性邑时，并通過t-SNE映射來探究模型學(xué)習(xí)到的高級(jí)表示[17，21]特姐。應(yīng)用探測(cè)方法[2]在不同數(shù)據(jù)集上的模型效果進(jìn)行逐層剖析晶丘。此外，為了統(tǒng)計(jì)輸入特征的影響唐含，我們基于反向傳播梯度計(jì)算每個(gè)特征組的顯著性得分浅浮。

? ??除了經(jīng)典的模型評(píng)估指標(biāo)[11，12]之外捷枯，我們打開“黑匣子”滚秩，從輸出到輸入來檢查DNN模型。了解模型的機(jī)理之后铜靶，不僅可以幫助我們?cè)O(shè)計(jì)和診斷模型叔遂，而且可以監(jiān)控算法廣告系統(tǒng)的日常工作他炊。

2 EXPERIMENTAL SETTING

2.1?Datasets

? ??我們?cè)诠镜乃阉鲝V告平臺(tái)上的CTR預(yù)測(cè)數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)。從一個(gè)經(jīng)典的周三開始已艰，連續(xù)收集8天數(shù)據(jù)痊末。訓(xùn)練集是從第一天的數(shù)據(jù)中采樣得到的。為了研究模型效果的衰減規(guī)律哩掺，我們從第一天到第八天凿叠，分別對(duì)模型進(jìn)行評(píng)估。因此八份數(shù)據(jù)集分別是test1嚼吞，test2盒件，……，test8舱禽。每份數(shù)據(jù)集包含大約1.5億個(gè)樣本炒刁，這些樣本是從相應(yīng)日期的廣告日志中隨機(jī)抽樣出來的。注意誊稚，test1和訓(xùn)練集之間是不重復(fù)的翔始。如此設(shè)置是為了模擬CTR預(yù)測(cè)任務(wù)的真實(shí)環(huán)境宝当，即利用歷史數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練退腥，并將其部署并服務(wù)于未來的在線流量中，而未來的數(shù)據(jù)分布自然與訓(xùn)練數(shù)據(jù)的不同甘晤。

? ??我們的數(shù)據(jù)包含34組稀疏的分類特征（總共約1億個(gè)二進(jìn)制特征）疾瓮，例如脖镀，用戶id、用戶所在城市狼电、用戶性別蜒灰、用戶年齡、查詢id漫萄、查詢?cè)~卷员、店鋪id盈匾、廣告類別等腾务。注意，本研究中沒有組合特征削饵。

2.2?Model setting

????DNN模型包含4個(gè)全連接層岩瘦。從第一層（靠近輸入層）到第四層（輸出層之前）的寬度分別是256，128窿撬，64启昧，32個(gè)神經(jīng)元。第k個(gè)隱藏層的公式可以寫作

$h_k=ReLU(W_kh_{k-1}+b_k)$ ? ? (1)

其中 $W_k$ 是k-1層網(wǎng)絡(luò)的權(quán)重劈伴， $b_k$ 是偏置項(xiàng)密末，ReLU是激活函數(shù)。輸出層使用sigmoid函數(shù)來將輸出映射到0~1之間來作為預(yù)測(cè)的點(diǎn)擊概率：

$P_{ctr}=Sigmoid(W_5h_4+b_5)$ ? ? (2)

在訓(xùn)練階段 $P_{ctr}$ 與真實(shí)標(biāo)簽進(jìn)行比較，損失函數(shù)是交叉熵严里。對(duì)于每個(gè)樣本新啼，稀疏特征均會(huì)embedded成一個(gè)8維的向量[6，7刹碾，23]燥撞。對(duì)于會(huì)包含多個(gè)特征ID的特征組，比如查詢?cè)~迷帜，會(huì)使用sum pooling來強(qiáng)制將每個(gè)特征組產(chǎn)生一個(gè)8維的向量物舒。這些向量concatenated起來變成272維的向量， $h_0$ 作為第一層的輸入戏锹。這些embedding向量和模型一起訓(xùn)練冠胯。實(shí)驗(yàn)是使用谷歌的分布式TensorFlow[1]上運(yùn)行的。該模型由Adagrad優(yōu)化器[8]訓(xùn)練锦针，學(xué)習(xí)率=0.005涵叮，初始累加器值=0.0001，最小批量大小=1000伞插。Glorot和Bengio的方法[10]用于初始化割粮。我們通過基于模型圖的動(dòng)態(tài)dumpling處理數(shù)據(jù)，實(shí)現(xiàn)了模型內(nèi)部狀態(tài)的可視化媚污。

3 RESULTS

3.1 AUC and Prediction Score

圖1

為了驗(yàn)證模型的效果舀瓢，我們使用AUC作為主要的指標(biāo)。AUC是一種廣泛使用的評(píng)價(jià)CTR效果的方法[12]耗美。

? ? 在圖1中京髓，我們將模型的AUC作為訓(xùn)練集和測(cè)試集training step的函數(shù)。隨著訓(xùn)練的進(jìn)行商架，訓(xùn)練集的AUC不斷增加堰怨，而所有的測(cè)試集的AUC，由于過度擬合蛇摸，都遵循相同的模式：首先上升备图，然后下降。模型在第210000個(gè)訓(xùn)練步中取得最好的泛化性赶袄。對(duì)比同一時(shí)間的八個(gè)測(cè)試AUC揽涮，模型的效果衰減可以作為不同數(shù)據(jù)集的函數(shù)來表示。測(cè)試集的AUC從第一天到第五天都是單調(diào)下降的饿肺。與預(yù)期是向符合的蒋困，這是因?yàn)闇y(cè)試數(shù)據(jù)的分布與訓(xùn)練集不同，并且差異是與日俱增的敬辣。之后雪标，最后三天測(cè)試集的AUC不斷攀升并超過了第四天零院，這也符合我們業(yè)務(wù)場(chǎng)景的特點(diǎn)：盡管數(shù)據(jù)每天都有變化，但用戶在我們網(wǎng)站上的行為有每周的周期性模式村刨。AUC這種非單調(diào)性變化在模型under-fitting到weak overfitting之間（在大約400000步之前）尤為明顯门粪。在更多的訓(xùn)練步之后，過擬合的十分嚴(yán)重烹困，那么模型和之前的五天具有相同的表現(xiàn)了玄妈。

圖2

????圖2展示了訓(xùn)練集、test1集合和test5集合預(yù)測(cè)的CTR分?jǐn)?shù)（預(yù)測(cè)值pCTR／訓(xùn)練集的真實(shí)CTR）分布情況髓梅。在training steps210000拟蜻，AUC開始從訓(xùn)練集衰減到test1，是由于test1的正樣本CTR值被模型預(yù)測(cè)的更小了枯饿。而test1到test5的衰減主要是由于test5的負(fù)樣本傾向于預(yù)測(cè)為更高的CTR酝锅。（訓(xùn)練集和test1的負(fù)樣本曲線完全重合了，肉眼幾乎分辨不出來）奢方。在training steps=600000搔扁，模型已經(jīng)過擬合，從而對(duì)點(diǎn)擊和未點(diǎn)擊的樣本都傾向預(yù)測(cè)為0蟋字。這是因?yàn)閿?shù)據(jù)的過度傾斜稿蹲。點(diǎn)擊的樣本比例不足10%，因此降低預(yù)測(cè)CTR仍然可以降低訓(xùn)練的損失鹊奖。這種分布形狀隨著數(shù)據(jù)的不同而顯著改變苛聘，分?jǐn)?shù)向右移動(dòng)，分布也變得模糊忠聚。

圖3和圖4

圖5和圖6

3.2 Neuron Status

?本節(jié)我們統(tǒng)計(jì)了不同訓(xùn)練階段和數(shù)據(jù)集的神經(jīng)元狀態(tài)设哗。這些統(tǒng)計(jì)特征描述了輸入數(shù)據(jù)的模型表示，可以幫助我們解釋模型的效果與工作原理两蟀。

圖7

圖3和圖4分別展示了第三層网梢，第四層網(wǎng)絡(luò)輸出的平均值，圖5和圖6展示的是標(biāo)準(zhǔn)差赂毯。訓(xùn)練100000步和210000步十分接近underfitting和well-fitting階段战虏。大約有四分之一的神經(jīng)元沒有被激活。在過擬合階段（300000步）才出現(xiàn)了重大變化欢瞪，激活的的神經(jīng)元更多了活烙。此外，訓(xùn)練集與測(cè)試集之間的差距隨著擬合程度的增加而變大遣鼓，尤其是標(biāo)準(zhǔn)差（圖5和圖6）。訓(xùn)練集上標(biāo)準(zhǔn)差越大表明神經(jīng)元對(duì)訓(xùn)練數(shù)據(jù)的輸入越敏感重贺。圖7展示了在不同數(shù)據(jù)集第3層的所有64個(gè)神經(jīng)元平均的標(biāo)準(zhǔn)差骑祟。對(duì)于三個(gè)不同的訓(xùn)練階段回懦，平均標(biāo)準(zhǔn)差的趨勢(shì)與模型的AUC（圖1）類似。

????為了獲得更多關(guān)于模型內(nèi)神經(jīng)元協(xié)作模式的原理[21次企，26]怯晕，我們計(jì)算了每一層神經(jīng)元之間的相關(guān)性。使用激活函數(shù)之前的神經(jīng)元狀態(tài)缸棵。我們通過平均每一層所有相關(guān)系數(shù)的絕對(duì)值來測(cè)量神經(jīng)元的平均相關(guān)程度舟茶。圖8展示了以training step做變量的相關(guān)系數(shù)的平均值。相關(guān)系數(shù)隨著層高的增加而增加堵第。這表明DNN模型正在通過連續(xù)的網(wǎng)絡(luò)層來提煉輸入信息[22吧凉，24，28]踏志。只有非常有限的部分輸入信息才可以傳輸?shù)捷敵鰧印?/p>

圖8

????在訓(xùn)練210000步后阀捅，所有隱藏層的神經(jīng)元相關(guān)系數(shù)隨著訓(xùn)練單調(diào)遞減≌胗啵回顧在過擬合下狀態(tài)觀察到的更多的神經(jīng)元激活（圖3和4）饲鄙，我們可以理解模型開始從輸入信息中探索更多的預(yù)測(cè)模式。然而（圖1）測(cè)試集AUC的降低表明訓(xùn)練數(shù)據(jù)的表示變強(qiáng)并不適用測(cè)試集的預(yù)測(cè)圆雁。

? ? 為了展示輸入數(shù)據(jù)高階表示的空間結(jié)構(gòu)忍级，我們使用t-SNE方法[17, 21]將神經(jīng)元的輸出向量映射到二維空間。t-SNE映射可以保留原始空間的鄰域和簇伪朽。在圖9中颤练，我們展示了210000訓(xùn)練步中網(wǎng)絡(luò)層2，3驱负，和4的映射結(jié)果嗦玖。所呈現(xiàn)的10000個(gè)點(diǎn)擊和10000個(gè)未點(diǎn)擊實(shí)例是從訓(xùn)練集中隨機(jī)選擇的。

? ? 在layer 3（圖9中的中間圖）中跃脊，我們可以清楚地看到點(diǎn)擊點(diǎn)集中的區(qū)域宇挫。我們發(fā)現(xiàn)訓(xùn)練過程提高了訓(xùn)練集點(diǎn)擊點(diǎn)的集中程度，這表明該模型在訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到了更具辨別性的表示酪术。在測(cè)試數(shù)據(jù)集中器瘪，我們觀察到當(dāng)發(fā)生過度擬合時(shí)，這種集中分布就消失了绘雁。與文獻(xiàn)[21]中的圖像分類不同橡疼，即使在嚴(yán)重過擬合階段也沒有觀察到類分離。這主要是由于CTR預(yù)測(cè)任務(wù)的高噪聲和數(shù)據(jù)傾斜造成的庐舟。

圖9

????從圖9的最左邊的圖可以看出欣除，網(wǎng)絡(luò)第2層的點(diǎn)擊點(diǎn)的聚集程度明顯低于網(wǎng)絡(luò)第3層。這與以下假設(shè)一致：對(duì)于一個(gè)經(jīng)過適當(dāng)訓(xùn)練的DNN模型挪略，隱藏層輸出的判別能力隨著網(wǎng)絡(luò)層次的增加而增加[2历帚，5滔岳，21]。然而挽牢，如圖9的右圖所示谱煤，網(wǎng)絡(luò)第4層的點(diǎn)擊點(diǎn)的聚集程度并沒有改善，而且看起來更分散禽拔×趵耄回顧網(wǎng)絡(luò)第4層神經(jīng)元之間非常強(qiáng)的相關(guān)性（圖8），有人可能會(huì)懷疑網(wǎng)絡(luò)第4層的輸出是否比網(wǎng)絡(luò)第3層更具有預(yù)測(cè)性睹栖。關(guān)于這點(diǎn)在接下來的章節(jié)會(huì)有更深入的討論硫惕。

3.3 Probe Evaluations

圖10

????為了研究隱藏層的有效性，我們實(shí)現(xiàn)了Alain&Bengio的探測(cè)方法[2]磨淌。DNN模型通過網(wǎng)絡(luò)層從輸入特征中挖掘出更有預(yù)測(cè)性的特征疲憋，然后將這些特征輸入到簡(jiǎn)單的線性分類器中。對(duì)于每一層梁只，我們使用該層的輸出向量作為L(zhǎng)R模型的輸入特征來預(yù)測(cè)CTR缚柳。LR模型可以作為評(píng)價(jià)隱藏層有效性的探測(cè)器。LR探測(cè)器的效果越好意味著該層提取的信息更具有預(yù)測(cè)性搪锣，從而提升了整個(gè)DNN模型的效果秋忙。

? ? LR模型使用訓(xùn)練集進(jìn)行訓(xùn)練直到收斂為止，固定DNN模型构舟，并在測(cè)試集上評(píng)估效果灰追。如圖10所示，在訓(xùn)練210000步中狗超，模型效果從網(wǎng)絡(luò)第1層到第3層是逐步上升的弹澎，這說明這些網(wǎng)絡(luò)層確實(shí)從輸入信息中提取到了更具有預(yù)測(cè)性的信息。網(wǎng)絡(luò)第4層的效果和網(wǎng)絡(luò)第3層完全一樣努咐，這表明網(wǎng)絡(luò)第4層并不如前面三層網(wǎng)絡(luò)更有效苦蒿。這與上小節(jié)的觀察是一致的。

? ??每條曲線的AUC變化（在圖10中）說明了隱藏層對(duì)不同的數(shù)據(jù)分布有不同的表現(xiàn)渗稍。在DNN模型泛化效果最好的訓(xùn)練步驟210000中佩迟，所有層的效果作為數(shù)據(jù)集的一個(gè)函數(shù)，其變化趨勢(shì)與DNN模型相同竿屹。相比之下报强，對(duì)于訓(xùn)練10000步中的underfitting的DNN模型，網(wǎng)絡(luò)第1層的表現(xiàn)與其它網(wǎng)絡(luò)層不同拱燃。此外秉溉，在訓(xùn)練600000步中，DNN模型在訓(xùn)練數(shù)據(jù)上產(chǎn)生了過度擬合，使得學(xué)習(xí)到的信息對(duì)于測(cè)試數(shù)據(jù)開始失效坚嗜。因此夯膀，探測(cè)器的效果很差诗充，波動(dòng)性也很大苍蔬。

3.4?Feature Group Saliency

? ??對(duì)于DNN模型的輸入，我們研究了輸入特征對(duì)反向傳播梯度信號(hào)模型的影響[16]蝴蜓。稀疏特征的embedding拼接層 $h_0$ 可以視作深度神經(jīng)網(wǎng)絡(luò)的輸入碟绑。在模型固定的情況下，對(duì)于每個(gè)輸入實(shí)例茎匠，我們針對(duì)模型輸出 $p_{ctr}$ 可以計(jì)算 $h_0$ 的梯度.

$g0=\nabla_{h_0}p_{ctr}$ ? ? (3)

圖11

????梯度向量 $g_0$ 每個(gè)元素的大小反應(yīng)模型輸出對(duì)特定embedding元素變化的敏感度格仲。它描述了一個(gè)特定embedding值的微小變化對(duì)最終輸出 $p_{ctr}$ 的影響程度。給定一個(gè)數(shù)據(jù)集诵冒，我們通過對(duì)整個(gè)數(shù)據(jù)集上對(duì)應(yīng)的8個(gè)梯度元素在g0中的絕對(duì)值求平均值來計(jì)算每個(gè)特征組的顯著性得分凯肋。這個(gè)顯著性得分為我們提供了對(duì)給定數(shù)據(jù)集的每個(gè)特征組的模型敏感性的平均分。

? ? 圖11展示了顯著性得分汽馋∥甓總體上來說，隨著訓(xùn)練的不斷進(jìn)行豹芯，模型對(duì)所有特征組的敏感性不斷增加悄雅。在過擬合階段，第10組特征上升的很明顯铁蹈，而且比其他特征組都要高宽闲。該特征組由用戶id組成，其中id的數(shù)量比任何其他特征組至少大兩個(gè)數(shù)量級(jí)[9]握牧。在這個(gè)訓(xùn)練階段容诬，該模型被訓(xùn)練成從用戶id中記憶了大量不具有概括性的信息，從而顯著地降低了測(cè)試數(shù)據(jù)集的效果沿腰。

4 DISCUSSION

4.1 Role of Layer 4

????關(guān)于網(wǎng)絡(luò)第4層是否有必要包含在模型中的問題览徒。為了回答這個(gè)問題，我們對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行了修改矫俺，并研究模型的訓(xùn)練效果吱殉。我們將網(wǎng)絡(luò)第4層的寬度減少或增加2倍，甚至從模型中刪除厘托。結(jié)果表明友雳，這些修改不會(huì)影響在不同測(cè)試數(shù)據(jù)集的模型效果（測(cè)試集最高AUC）。盡管沒有危害铅匹，但在DNN模型中包含網(wǎng)絡(luò)第4層是沒有任何用處的押赊。

4.2?Regularization

? ??上一節(jié)中的分析顯示，當(dāng)過度擬合時(shí)，模型對(duì)輸入變得十分敏感流礁。此外涕俗，第3層和第4層神經(jīng)元之間的高度相關(guān)性（圖8）意味著可能存在嚴(yán)重的co-adaptations[25]。有人可能希望使用正則化來控制過度擬合神帅，并在測(cè)試數(shù)據(jù)上獲得更好的性能再姑。我們使用了L1，L2正則和dropout 調(diào)試了各種超參數(shù)找御。但是沒有得到效果提升元镀。今后，在提高模型的泛化能力方面還需要做更多的探索霎桅。

4.3?Feature Treatment

? ??3.4小節(jié)揭示了模型在過度擬合時(shí)對(duì)用戶id的特征組非常敏感的問題栖疑。除了正則化之外，通過優(yōu)化輸入特征也可以提高模型的泛化能力滔驶。用戶id是一個(gè)高度細(xì)粒度的特性組遇革。直接將其輸入到基于嵌入的深層神經(jīng)網(wǎng)絡(luò)可能不是最佳選擇。遵循Wide&Deep[6]的思想揭糕，我們從embedding層中刪除用戶id萝快。每個(gè)用戶id的偏差由一個(gè)浮點(diǎn)數(shù) $b_{user}$ 表示，并添加到輸出層中

$p_{ctr}=Sigmoid(W_5h_4+b5+b_{user})$ ? ? (4)

這個(gè)偏置和模型其他部分一起訓(xùn)練插佛。這種方式可以提升測(cè)試集的AUC大約0.1%杠巡。

5?APPLICATIONS

????利用上面介紹的可視化和分析技術(shù)，我們將在本節(jié)討論一些實(shí)際應(yīng)用：

????1. 預(yù)測(cè)的CTR得分的分布對(duì)實(shí)時(shí)競(jìng)價(jià)拍賣非常重要雇寇。了解分?jǐn)?shù)分布可以幫助我們?cè)O(shè)計(jì)更好的校準(zhǔn)方法[13氢拥，19]。另外锨侯，分?jǐn)?shù)分布有助于發(fā)現(xiàn)異常值或不適合的樣本嫩海，這反過來又可以用來改進(jìn)模型。

????2.?對(duì)模型內(nèi)部狀態(tài)和梯度信號(hào)的檢測(cè)打開了DNN模型的“黑匣子”囚痴，有助于我們了解模型的機(jī)理和特征的影響叁怪。這些方法可以用來診斷模型，比如（不局限于）underfitting/overfitting深滚、梯度爆炸/消失奕谭，無效的網(wǎng)絡(luò)結(jié)構(gòu)等等。更深層次的了解模型機(jī)制可以幫助我們?cè)O(shè)計(jì)更棒的模型結(jié)構(gòu)痴荐，訓(xùn)練算法以及特征血柳。

? ? 3. 對(duì)于在線廣告系統(tǒng)化，監(jiān)控模型的在線性能和數(shù)據(jù)管道的健康狀況是非常重要的生兆。為模型輸入有問題的數(shù)據(jù)可能導(dǎo)致災(zāi)難难捌。然而描述和監(jiān)控極度稀疏和高維的數(shù)據(jù)又是十分困難的。此外，監(jiān)視模型的線上效果可能還不夠根吁。每次競(jìng)價(jià)模型就會(huì)預(yù)測(cè)數(shù)百個(gè)候選廣告的點(diǎn)擊率员淫，而只有極少數(shù)廣告能夠贏得競(jìng)價(jià)并從中得到反饋。而經(jīng)典的性能指標(biāo)主要基于這些反饋击敌，因此只能覆蓋有限部分的有偏數(shù)據(jù)介返。

? ? DNN模型天然具有將稀疏的數(shù)據(jù)數(shù)據(jù)轉(zhuǎn)換為稠密的數(shù)字表示。因此愚争，神經(jīng)元輸出和梯度信號(hào)的統(tǒng)計(jì)可以作為一種新的監(jiān)測(cè)輸入數(shù)據(jù)分布的指標(biāo)實(shí)現(xiàn)映皆。請(qǐng)注意挤聘，計(jì)算這些數(shù)據(jù)是不需要反饋標(biāo)簽的轰枝。例如，如圖7所示组去，網(wǎng)絡(luò)第3層輸出的平均標(biāo)準(zhǔn)差隨輸入數(shù)據(jù)分布的自然變化而變化鞍陨。有問題的輸入數(shù)據(jù)會(huì)導(dǎo)致統(tǒng)計(jì)數(shù)據(jù)發(fā)生更大的變化。

6?CONCLUSION

? ??在這項(xiàng)工作中从隆，我們?cè)谏窠?jīng)元的水平上可視化并分析了一個(gè)簡(jiǎn)單的DNN CTR模型诚撵。在一系列的數(shù)據(jù)集上進(jìn)行了模型訓(xùn)練和評(píng)估。端到端的檢查了模型键闺。使用了多種方法來研究神經(jīng)元的狀態(tài)寿烟。特征embedding的梯度用于創(chuàng)建顯著性映射來描述特征組的影響。這些分析提供了對(duì)模型機(jī)制的深入了解辛燥，幫助我們監(jiān)控筛武、診斷和優(yōu)化模型。

? ??目前挎塌，我們正在應(yīng)用這些方法為我們的在線廣告平臺(tái)構(gòu)建一個(gè)基于模型的評(píng)估和監(jiān)控系統(tǒng)徘六。基于我們的工業(yè)場(chǎng)景榴都，未來的工作將集中在探索更多解釋深度學(xué)習(xí)的方法待锈，研究更復(fù)雜的算法，并應(yīng)用這些方法設(shè)計(jì)更好的模型和算法嘴高。

REFERENCES

[1] Mart′?n Abadi, Ashish Agarwal, Paul Barham, Eugene Brevdo, Zhifeng Chen,

Craig Citro, Greg S Corrado, Andy Davis, Je.rey Dean, Ma.hieu Devin, et al.

2016. Tensor.ow: Large-scale machine learning on heterogeneous distributed

systems. arXiv preprint arXiv:1603.04467 (2016). h.ps://www.tensor.ow.org/

[2] Guillaume Alain and Yoshua Bengio. 2016. Understanding intermediate layers

using linear classi.er probes. arXiv preprint arXiv:1610.01644 (2016).

[3] Leila Arras, Gr′egoire Montavon, Klaus-Robert M¨uller, andWojciech Samek. 2017.

Explaining recurrent neural network predictions in sentiment analysis. arXiv

preprint arXiv:1706.07206 (2017).

[4] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2014. Neural machine

translation by jointly learning to align and translate. arXiv preprint

arXiv:1409.0473 (2014).

[5] Yoshua Bengio et al. 2009. Learning deep architectures for AI. Foundations and

trends? in Machine Learning 2, 1 (2009), 1–127.

[6] Heng-Tze Cheng and Levent Koc. 2016. Wide & deep learning for recommender

systems. In Proceedings of the ACM 1st Workshop on Deep Learning for Recommender

Systems. 7–10.

[7] Paul Covington, Jay Adams, and Emre Sargin. 2016. Deep neural networks for

youtube recommendations. In Proceedings of ACM Conference on Recommender

Systems. 191–198.

[8] John Duchi, Elad Hazan, and Yoram Singer. 2011. Adaptive subgradient methods

for online learning and stochastic optimization. Journal of Machine Learning

Research 12, Jul (2011), 2121–2159.

[9] Tiezheng Ge, Liqin Zhao, Guorui Zhou, Keyu Chen, Shuying Liu, Huiming

Yi, Zelin Hu, Bochao Liu, Peng Sun, Haoyu Liu, et al. 2017. Image Ma.ers:

Jointly Train Advertising CTR Model with Image Representation of Ad and User

Behavior. arXiv preprint arXiv:1711.06505 (2017).

[10] Xavier Glorot and Yoshua Bengio. 2010. Understanding the di.culty of training

deep feedforward neural networks. Journal of Machine Learning Research 9

(2010), 249–256.

[11] Ian Goodfellow, Yoshua Bengio, and Aaron Courville. 2016. Deep Learning. MIT

Press.

[12] .ore Graepel, Joaquin .i? nonero Candela, .omas Borchert, and Ralf Herbrich.

2010. Web-scale Bayesian Click-through Rate Prediction for Sponsored Search

Advertising in Microso.’s Bing Search Engine. In Proceedings of the 27th International

Conference on International Conference on Machine Learning (ICML’10).

Omnipress, USA, 13–20.

[13] Xinran He, Junfeng Pan, Ou Jin, Tianbing Xu, Bo Liu, Tao Xu, Yanxin Shi,

Antoine Atallah, Ralf Herbrich, Stuart Bowers, et al. 2014. Practical lessons from

predicting clicks on ads at facebook. In Proceedings of the Eighth International

Workshop on Data Mining for Online Advertising. ACM, 1–9.

[14] Andrej Karpathy, Justin Johnson, and Fei-Fei Li. 2015. Visualizing and understanding

recurrent networks. arXiv preprint arXiv:1506.02078 (2015).

[15] Pangwei Koh and Percy Liang. 2017. Understanding Black-box Predictions via

In.uence Functions. In International Conference on Machine Learning. 1885–1894.

[16] Jiwei Li, Xinlei Chen, Eduard Hovy, and Dan Jurafsky. 2016. Visualizing and

Understanding Neural Models in NLP. arXiv preprint arXiv:1506.01066v2 (2016).

[17] Laurens van der Maaten and Geo.rey Hinton. 2008. Visualizing data using t-SNE.

Journal of machine learning research 9, Nov (2008), 2579–2605.

[18] Aravindh Mahendran and Andrea Vedaldi. 2016. Visualizing deep convolutional

neural networks using natural pre-images. International Journal of Computer

Vision 120, 3 (2016), 233–255.

[19] Brendan McMahan, Gary Holt, David Sculley, Michael Young, Dietmar Ebner,

Julian Grady, Lan Nie, Todd Phillips, Eugene Davydov, Daniel Golovin, et al.

2013. Ad click prediction: a view from the trenches. In Proceedings of the 19th

ACM SIGKDD international conference on Knowledge discovery and data mining.

ACM, 1222–1230.

[20] Kexin Pei, Yinzhi Cao, Junfeng Yang, and Suman Jana. 2017. Deepxplore: Automated

whitebox testing of deep learning systems. In Proceedings of the 26th

Symposium on Operating Systems Principles. ACM, 1–18.

[21] Paulo E Rauber, Samuel G Fadel, Alexandre X Falcao, and Alexandru C Telea. 2017.

Visualizing the hidden activity of arti.cial neural networks. IEEE transactions on

visualization and computer graphics 23, 1 (2017), 101–110.

[22] Andrew Michael Saxe, Yamini Bansal, Joel Dapello, Madhu Advani, Artemy

Kolchinsky, Brendan Daniel Tracey, and David Daniel Cox. 2018. On the Information

Bo.leneck .eory of Deep Learning. In International Conference on

Learning Representations. h.ps://openreview.net/forum?id=ry WPG-A-

[23] Ying Shan and T Ryan Hoens. 2016. Deep crossing: Web-scale modeling without

manually cra.ed combinatorial features. In Proceedings of ACM Conference on

Knowledge Discovery and Data Mining.

[24] Ravid Shwartz-Ziv and Na.ali Tishby. 2017. Opening the black box of deep

neural networks via information. arXiv preprint arXiv:1703.00810 (2017).

[25] Nitish Srivastava, Geo.rey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan

Salakhutdinov. 2014. Dropout: A simple way to prevent neural networks from

over..ing. .e Journal of Machine Learning Research 15, 1 (2014), 1929–1958.

[26] Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru

Erhan, Ian Goodfellow, and Rob Fergus. 2013. Intriguing properties of neural

networks. arXiv preprint arXiv:1312.6199 (2013).

[27] Zhiyuan Tang, Ying Shi, Dong Wang, Yang Feng, and Shiyue Zhang. 2017. Memory

visualization for gated recurrent neural networks in speech recognition.

Proceedings of IEEE International Conference on Acoustics, Speech and Signal

Processing (ICASSP) (2017).

[28] Na.ali Tishby and Noga Zaslavsky. 2015. Deep learning and the information

bo.leneck principle. In 2015 IEEE Information .eoryWorkshop (ITW). 1–5. h.ps:

//doi.org/10.1109/ITW.2015.7133169

[29] Ma.hew D Zeiler and Rob Fergus. 2014. Visualizing and understanding convolutional

networks. In European conference on computer vision. Springer, 818–833

最后編輯于：2020.04.18 21:58:27

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末竿音，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子拴驮，更是在濱河造成了極大的恐慌春瞬，老刑警劉巖，帶你破解...
沈念sama閱讀 217,185評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件莹汤，死亡現(xiàn)場(chǎng)離奇詭異快鱼，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,652評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門抹竹，熙熙樓的掌柜王于貴愁眉苦臉地迎上來线罕，“玉大人，你說我怎么就攤上這事窃判〕ィ” “怎么了？”我有些...
開封第一講書人閱讀 163,524評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵袄琳，是天一觀的道長(zhǎng)询件。經(jīng)常有香客問我，道長(zhǎng)唆樊，這世上最難降的妖魔是什么宛琅？我笑而不...
開封第一講書人閱讀 58,339評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮逗旁，結(jié)果婚禮上嘿辟，老公的妹妹穿的比我還像新娘。我一直安慰自己片效，他們只是感情好红伦，可當(dāng)我...
茶點(diǎn)故事閱讀 67,387評(píng)論 6贊 391
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著淀衣，像睡著了一般昙读。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上膨桥，一...
開封第一講書人閱讀 51,287評(píng)論 1贊 301
城市分裂傳說
那天蛮浑，我揣著相機(jī)與錄音，去河邊找鬼国撵。笑死陵吸，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的介牙。我是一名探鬼主播壮虫，決...
沈念sama閱讀 40,130評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼环础！你這毒婦竟也來了囚似？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,985評(píng)論 0贊 275
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤线得，失蹤者是張志新（化名）和其女友劉穎饶唤，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體贯钩，經(jīng)...
沈念sama閱讀 45,420評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡募狂，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,617評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年办素，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片祸穷。...
茶點(diǎn)故事閱讀 39,779評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡性穿，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出雷滚，到底是詐尸還是另有隱情需曾，我是刑警寧澤，帶...
沈念sama閱讀 35,477評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布祈远，位于F島的核電站呆万，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏车份。R本人自食惡果不足惜谋减，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,088評(píng)論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望躬充。院中可真熱鬧逃顶，春花似錦、人聲如沸充甚。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,716評(píng)論 0贊 22
一樁弒父案霸褒，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽伴找。三九已至，卻和暖如春废菱，著一層夾襖步出監(jiān)牢的瞬間技矮，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,857評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國(guó)打工殊轴，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留衰倦，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,876評(píng)論 2贊 370
代替公主和親
正文我出身青樓旁理，卻偏偏與公主長(zhǎng)得像樊零，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子孽文，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,700評(píng)論 2贊 354