論文作者: Lin Guo彼棍、Hui Ye民泵、Wenbo Su、Henhuan Liu扣墩、Kai Sun、Hang Xiang
論文下載鏈接:arxiv
ABSTRACT
????盡管深度學(xué)習(xí)在許多任務(wù)中已經(jīng)得到了廣泛應(yīng)用扛吞,但是深度神經(jīng)網(wǎng)絡(luò)的可解釋性仍是一個(gè)巨大挑戰(zhàn)呻惕。近年來,人們?cè)趫D像處理和自然語言處理領(lǐng)域?qū)ι顚由窠?jīng)網(wǎng)絡(luò)的機(jī)制進(jìn)行了許多可視化和分析的研究喻粹。在這篇文章中蟆融,我們提出了我們的方法來可視化和理解在商業(yè)中扮有重要角色的CTR預(yù)測(cè)深度神經(jīng)網(wǎng)絡(luò)草巡。我們?cè)诰€上的廣告系統(tǒng)的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)守呜,這些數(shù)據(jù)每天都有不同的分布。為了了解模型的機(jī)制和效果山憨,我們?cè)谏窠?jīng)元水平上探測(cè)模型的內(nèi)部狀態(tài)查乒。此外,還實(shí)現(xiàn)了一種探測(cè)方法來測(cè)試模型的每個(gè)網(wǎng)絡(luò)層的效果郁竟。并且玛迄,我們基于反向傳播算法來計(jì)算每個(gè)輸入特征的顯著性得分以衡量每個(gè)輸入特征的影響力。文中還討論了在理解棚亩、監(jiān)控蓖议、診斷和優(yōu)化模型等方面的實(shí)際應(yīng)用。
1 INTRODUCTION
? ??點(diǎn)擊率預(yù)測(cè)在計(jì)算廣告中起著至關(guān)重要的作用讥蟆。在點(diǎn)擊廣告系統(tǒng)中勒虾,廣告是根據(jù)競(jìng)拍價(jià)格和預(yù)測(cè)點(diǎn)擊率的乘積進(jìn)行排名的。因此瘸彤,數(shù)十億業(yè)務(wù)的收入在很大程度上依賴于CTR預(yù)測(cè)模型的效果修然。
????深度學(xué)習(xí)技術(shù)已經(jīng)成功地應(yīng)用于CTR預(yù)測(cè)任務(wù)[6,7,23]愕宋。深度神經(jīng)網(wǎng)絡(luò)(DNNs)由多層神經(jīng)元組成玻靡,具有從特征中提取非線性模式的能力,從而減輕了非線性特征工程的負(fù)擔(dān)中贝。然而深度學(xué)習(xí)模式的工作機(jī)制仍舊沒有很好的可解釋性囤捻。這種缺失一直是深度學(xué)習(xí)發(fā)展的障礙,引起了對(duì)深度學(xué)習(xí)應(yīng)用可靠性的關(guān)注邻寿,尤其是在重要的工業(yè)實(shí)踐中最蕾。
? ??在圖像處理[15,18老厌,20瘟则,21,26枝秤,29]和自然語言處理[3醋拧,4,14淀弹,16丹壕,27],深度學(xué)習(xí)模型的可視化和可解釋性方面取得了許多新進(jìn)展薇溃。在本文中菌赖,我們提出了一系列的方法來可視化和分析一個(gè)簡(jiǎn)單的DNN模型,使用搜索廣告平臺(tái)的生產(chǎn)數(shù)據(jù)進(jìn)行CTR預(yù)測(cè)沐序。在以日為單位的數(shù)據(jù)集上研究模型的效果衰減規(guī)律琉用,并比較不同訓(xùn)練階段的分?jǐn)?shù)分布情況。我們?cè)谏窠?jīng)元水平上探測(cè)模型的內(nèi)部狀態(tài)策幼。研究隱層神經(jīng)元狀態(tài)的統(tǒng)計(jì)特性邑时,并通過t-SNE映射來探究模型學(xué)習(xí)到的高級(jí)表示[17,21]特姐。應(yīng)用探測(cè)方法[2]在不同數(shù)據(jù)集上的模型效果進(jìn)行逐層剖析晶丘。此外,為了統(tǒng)計(jì)輸入特征的影響唐含,我們基于反向傳播梯度計(jì)算每個(gè)特征組的顯著性得分浅浮。
? ??除了經(jīng)典的模型評(píng)估指標(biāo)[11,12]之外捷枯,我們打開“黑匣子”滚秩,從輸出到輸入來檢查DNN模型。了解模型的機(jī)理之后铜靶,不僅可以幫助我們?cè)O(shè)計(jì)和診斷模型叔遂,而且可以監(jiān)控算法廣告系統(tǒng)的日常工作他炊。
2 EXPERIMENTAL SETTING
2.1?Datasets
? ??我們?cè)诠镜乃阉鲝V告平臺(tái)上的CTR預(yù)測(cè)數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)。從一個(gè)經(jīng)典的周三開始已艰,連續(xù)收集8天數(shù)據(jù)痊末。訓(xùn)練集是從第一天的數(shù)據(jù)中采樣得到的。為了研究模型效果的衰減規(guī)律哩掺,我們從第一天到第八天凿叠,分別對(duì)模型進(jìn)行評(píng)估。因此八份數(shù)據(jù)集分別是test1嚼吞,test2盒件,……,test8舱禽。每份數(shù)據(jù)集包含大約1.5億個(gè)樣本炒刁,這些樣本是從相應(yīng)日期的廣告日志中隨機(jī)抽樣出來的。注意誊稚,test1和訓(xùn)練集之間是不重復(fù)的翔始。如此設(shè)置是為了模擬CTR預(yù)測(cè)任務(wù)的真實(shí)環(huán)境宝当,即利用歷史數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練退腥,并將其部署并服務(wù)于未來的在線流量中,而未來的數(shù)據(jù)分布自然與訓(xùn)練數(shù)據(jù)的不同甘晤。
? ??我們的數(shù)據(jù)包含34組稀疏的分類特征(總共約1億個(gè)二進(jìn)制特征)疾瓮,例如脖镀,用戶id、用戶所在城市狼电、用戶性別蜒灰、用戶年齡、查詢id漫萄、查詢?cè)~卷员、店鋪id盈匾、廣告類別等腾务。注意,本研究中沒有組合特征削饵。
2.2?Model setting
????DNN模型包含4個(gè)全連接層岩瘦。從第一層(靠近輸入層)到第四層(輸出層之前)的寬度分別是256,128窿撬,64启昧,32個(gè)神經(jīng)元。第k個(gè)隱藏層的公式可以寫作
? ? (1)
其中是k-1層網(wǎng)絡(luò)的權(quán)重劈伴,是偏置項(xiàng)密末,ReLU是激活函數(shù)。輸出層使用sigmoid函數(shù)來將輸出映射到0~1之間來作為預(yù)測(cè)的點(diǎn)擊概率:
? ? (2)
在訓(xùn)練階段與真實(shí)標(biāo)簽進(jìn)行比較,損失函數(shù)是交叉熵严里。對(duì)于每個(gè)樣本新啼,稀疏特征均會(huì)embedded成一個(gè)8維的向量[6,7刹碾,23]燥撞。對(duì)于會(huì)包含多個(gè)特征ID的特征組,比如查詢?cè)~迷帜,會(huì)使用sum pooling來強(qiáng)制將每個(gè)特征組產(chǎn)生一個(gè)8維的向量物舒。這些向量concatenated起來變成272維的向量,作為第一層的輸入戏锹。這些embedding向量和模型一起訓(xùn)練冠胯。實(shí)驗(yàn)是使用谷歌的分布式TensorFlow[1]上運(yùn)行的。該模型由Adagrad優(yōu)化器[8]訓(xùn)練锦针,學(xué)習(xí)率=0.005涵叮,初始累加器值=0.0001,最小批量大小=1000伞插。Glorot和Bengio的方法[10]用于初始化割粮。我們通過基于模型圖的動(dòng)態(tài)dumpling處理數(shù)據(jù),實(shí)現(xiàn)了模型內(nèi)部狀態(tài)的可視化媚污。
3 RESULTS
3.1 AUC and Prediction Score
為了驗(yàn)證模型的效果舀瓢,我們使用AUC作為主要的指標(biāo)。AUC是一種廣泛使用的評(píng)價(jià)CTR效果的方法[12]耗美。
? ? 在圖1中京髓,我們將模型的AUC作為訓(xùn)練集和測(cè)試集training step的函數(shù)。隨著訓(xùn)練的進(jìn)行商架,訓(xùn)練集的AUC不斷增加堰怨,而所有的測(cè)試集的AUC,由于過度擬合蛇摸,都遵循相同的模式:首先上升备图,然后下降。模型在第210000個(gè)訓(xùn)練步中取得最好的泛化性赶袄。對(duì)比同一時(shí)間的八個(gè)測(cè)試AUC揽涮,模型的效果衰減可以作為不同數(shù)據(jù)集的函數(shù)來表示。測(cè)試集的AUC從第一天到第五天都是單調(diào)下降的饿肺。與預(yù)期是向符合的蒋困,這是因?yàn)闇y(cè)試數(shù)據(jù)的分布與訓(xùn)練集不同,并且差異是與日俱增的敬辣。之后雪标,最后三天測(cè)試集的AUC不斷攀升并超過了第四天零院,這也符合我們業(yè)務(wù)場(chǎng)景的特點(diǎn):盡管數(shù)據(jù)每天都有變化,但用戶在我們網(wǎng)站上的行為有每周的周期性模式村刨。AUC這種非單調(diào)性變化在模型under-fitting到weak overfitting之間(在大約400000步之前)尤為明顯门粪。在更多的訓(xùn)練步之后,過擬合的十分嚴(yán)重烹困,那么模型和之前的五天具有相同的表現(xiàn)了玄妈。
????圖2展示了訓(xùn)練集、test1集合和test5集合預(yù)測(cè)的CTR分?jǐn)?shù)(預(yù)測(cè)值pCTR/訓(xùn)練集的真實(shí)CTR)分布情況髓梅。在training steps210000拟蜻,AUC開始從訓(xùn)練集衰減到test1,是由于test1的正樣本CTR值被模型預(yù)測(cè)的更小了枯饿。而test1到test5的衰減主要是由于test5的負(fù)樣本傾向于預(yù)測(cè)為更高的CTR酝锅。(訓(xùn)練集和test1的負(fù)樣本曲線完全重合了,肉眼幾乎分辨不出來)奢方。在training steps=600000搔扁,模型已經(jīng)過擬合,從而對(duì)點(diǎn)擊和未點(diǎn)擊的樣本都傾向預(yù)測(cè)為0蟋字。這是因?yàn)閿?shù)據(jù)的過度傾斜稿蹲。點(diǎn)擊的樣本比例不足10%,因此降低預(yù)測(cè)CTR仍然可以降低訓(xùn)練的損失鹊奖。這種分布形狀隨著數(shù)據(jù)的不同而顯著改變苛聘,分?jǐn)?shù)向右移動(dòng),分布也變得模糊忠聚。
3.2 Neuron Status
?本節(jié)我們統(tǒng)計(jì)了不同訓(xùn)練階段和數(shù)據(jù)集的神經(jīng)元狀態(tài)设哗。這些統(tǒng)計(jì)特征描述了輸入數(shù)據(jù)的模型表示,可以幫助我們解釋模型的效果與工作原理两蟀。
圖3和圖4分別展示了第三層网梢,第四層網(wǎng)絡(luò)輸出的平均值,圖5和圖6展示的是標(biāo)準(zhǔn)差赂毯。訓(xùn)練100000步和210000步十分接近underfitting和well-fitting階段战虏。大約有四分之一的神經(jīng)元沒有被激活。在過擬合階段(300000步)才出現(xiàn)了重大變化欢瞪,激活的的神經(jīng)元更多了活烙。此外,訓(xùn)練集與測(cè)試集之間的差距隨著擬合程度的增加而變大遣鼓,尤其是標(biāo)準(zhǔn)差(圖5和圖6)。訓(xùn)練集上標(biāo)準(zhǔn)差越大表明神經(jīng)元對(duì)訓(xùn)練數(shù)據(jù)的輸入越敏感重贺。圖7展示了在不同數(shù)據(jù)集第3層的所有64個(gè)神經(jīng)元平均的標(biāo)準(zhǔn)差骑祟。對(duì)于三個(gè)不同的訓(xùn)練階段回懦,平均標(biāo)準(zhǔn)差的趨勢(shì)與模型的AUC(圖1)類似。
????為了獲得更多關(guān)于模型內(nèi)神經(jīng)元協(xié)作模式的原理[21次企,26]怯晕,我們計(jì)算了每一層神經(jīng)元之間的相關(guān)性。使用激活函數(shù)之前的神經(jīng)元狀態(tài)缸棵。我們通過平均每一層所有相關(guān)系數(shù)的絕對(duì)值來測(cè)量神經(jīng)元的平均相關(guān)程度舟茶。圖8展示了以training step做變量的相關(guān)系數(shù)的平均值。相關(guān)系數(shù)隨著層高的增加而增加堵第。這表明DNN模型正在通過連續(xù)的網(wǎng)絡(luò)層來提煉輸入信息[22吧凉,24,28]踏志。只有非常有限的部分輸入信息才可以傳輸?shù)捷敵鰧印?/p>
????在訓(xùn)練210000步后阀捅,所有隱藏層的神經(jīng)元相關(guān)系數(shù)隨著訓(xùn)練單調(diào)遞減≌胗啵回顧在過擬合下狀態(tài)觀察到的更多的神經(jīng)元激活(圖3和4)饲鄙,我們可以理解模型開始從輸入信息中探索更多的預(yù)測(cè)模式。然而(圖1)測(cè)試集AUC的降低表明訓(xùn)練數(shù)據(jù)的表示變強(qiáng)并不適用測(cè)試集的預(yù)測(cè)圆雁。
? ? 為了展示輸入數(shù)據(jù)高階表示的空間結(jié)構(gòu)忍级,我們使用t-SNE方法[17, 21]將神經(jīng)元的輸出向量映射到二維空間。t-SNE映射可以保留原始空間的鄰域和簇伪朽。在圖9中颤练,我們展示了210000訓(xùn)練步中網(wǎng)絡(luò)層2,3驱负,和4的映射結(jié)果嗦玖。所呈現(xiàn)的10000個(gè)點(diǎn)擊和10000個(gè)未點(diǎn)擊實(shí)例是從訓(xùn)練集中隨機(jī)選擇的。
? ? 在layer 3(圖9中的中間圖)中跃脊,我們可以清楚地看到點(diǎn)擊點(diǎn)集中的區(qū)域宇挫。我們發(fā)現(xiàn)訓(xùn)練過程提高了訓(xùn)練集點(diǎn)擊點(diǎn)的集中程度,這表明該模型在訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到了更具辨別性的表示酪术。在測(cè)試數(shù)據(jù)集中器瘪,我們觀察到當(dāng)發(fā)生過度擬合時(shí),這種集中分布就消失了绘雁。與文獻(xiàn)[21]中的圖像分類不同橡疼,即使在嚴(yán)重過擬合階段也沒有觀察到類分離。這主要是由于CTR預(yù)測(cè)任務(wù)的高噪聲和數(shù)據(jù)傾斜造成的庐舟。
????從圖9的最左邊的圖可以看出欣除,網(wǎng)絡(luò)第2層的點(diǎn)擊點(diǎn)的聚集程度明顯低于網(wǎng)絡(luò)第3層。這與以下假設(shè)一致:對(duì)于一個(gè)經(jīng)過適當(dāng)訓(xùn)練的DNN模型挪略,隱藏層輸出的判別能力隨著網(wǎng)絡(luò)層次的增加而增加[2历帚,5滔岳,21]。然而挽牢,如圖9的右圖所示谱煤,網(wǎng)絡(luò)第4層的點(diǎn)擊點(diǎn)的聚集程度并沒有改善,而且看起來更分散禽拔×趵耄回顧網(wǎng)絡(luò)第4層神經(jīng)元之間非常強(qiáng)的相關(guān)性(圖8),有人可能會(huì)懷疑網(wǎng)絡(luò)第4層的輸出是否比網(wǎng)絡(luò)第3層更具有預(yù)測(cè)性睹栖。關(guān)于這點(diǎn)在接下來的章節(jié)會(huì)有更深入的討論硫惕。
3.3 Probe Evaluations
????為了研究隱藏層的有效性,我們實(shí)現(xiàn)了Alain&Bengio的探測(cè)方法[2]磨淌。DNN模型通過網(wǎng)絡(luò)層從輸入特征中挖掘出更有預(yù)測(cè)性的特征疲憋,然后將這些特征輸入到簡(jiǎn)單的線性分類器中。對(duì)于每一層梁只,我們使用該層的輸出向量作為L(zhǎng)R模型的輸入特征來預(yù)測(cè)CTR缚柳。LR模型可以作為評(píng)價(jià)隱藏層有效性的探測(cè)器。LR探測(cè)器的效果越好意味著該層提取的信息更具有預(yù)測(cè)性搪锣,從而提升了整個(gè)DNN模型的效果秋忙。
? ? LR模型使用訓(xùn)練集進(jìn)行訓(xùn)練直到收斂為止,固定DNN模型构舟,并在測(cè)試集上評(píng)估效果灰追。如圖10所示,在訓(xùn)練210000步中狗超,模型效果從網(wǎng)絡(luò)第1層到第3層是逐步上升的弹澎,這說明這些網(wǎng)絡(luò)層確實(shí)從輸入信息中提取到了更具有預(yù)測(cè)性的信息。網(wǎng)絡(luò)第4層的效果和網(wǎng)絡(luò)第3層完全一樣努咐,這表明網(wǎng)絡(luò)第4層并不如前面三層網(wǎng)絡(luò)更有效苦蒿。這與上小節(jié)的觀察是一致的。
? ??每條曲線的AUC變化(在圖10中)說明了隱藏層對(duì)不同的數(shù)據(jù)分布有不同的表現(xiàn)渗稍。在DNN模型泛化效果最好的訓(xùn)練步驟210000中佩迟,所有層的效果作為數(shù)據(jù)集的一個(gè)函數(shù),其變化趨勢(shì)與DNN模型相同竿屹。相比之下报强,對(duì)于訓(xùn)練10000步中的underfitting的DNN模型,網(wǎng)絡(luò)第1層的表現(xiàn)與其它網(wǎng)絡(luò)層不同拱燃。此外秉溉,在訓(xùn)練600000步中,DNN模型在訓(xùn)練數(shù)據(jù)上產(chǎn)生了過度擬合,使得學(xué)習(xí)到的信息對(duì)于測(cè)試數(shù)據(jù)開始失效坚嗜。因此夯膀,探測(cè)器的效果很差诗充,波動(dòng)性也很大苍蔬。
3.4?Feature Group Saliency
? ??對(duì)于DNN模型的輸入,我們研究了輸入特征對(duì)反向傳播梯度信號(hào)模型的影響[16]蝴蜓。稀疏特征的embedding拼接層可以視作深度神經(jīng)網(wǎng)絡(luò)的輸入碟绑。在模型固定的情況下,對(duì)于每個(gè)輸入實(shí)例茎匠,我們針對(duì)模型輸出可以計(jì)算的梯度.
? ? (3)
????梯度向量每個(gè)元素的大小反應(yīng)模型輸出對(duì)特定embedding元素變化的敏感度格仲。它描述了一個(gè)特定embedding值的微小變化對(duì)最終輸出的影響程度。給定一個(gè)數(shù)據(jù)集诵冒,我們通過對(duì)整個(gè)數(shù)據(jù)集上對(duì)應(yīng)的8個(gè)梯度元素在g0中的絕對(duì)值求平均值來計(jì)算每個(gè)特征組的顯著性得分凯肋。這個(gè)顯著性得分為我們提供了對(duì)給定數(shù)據(jù)集的每個(gè)特征組的模型敏感性的平均分。
? ? 圖11展示了顯著性得分汽馋∥甓總體上來說,隨著訓(xùn)練的不斷進(jìn)行豹芯,模型對(duì)所有特征組的敏感性不斷增加悄雅。在過擬合階段,第10組特征上升的很明顯铁蹈,而且比其他特征組都要高宽闲。該特征組由用戶id組成,其中id的數(shù)量比任何其他特征組至少大兩個(gè)數(shù)量級(jí)[9]握牧。在這個(gè)訓(xùn)練階段容诬,該模型被訓(xùn)練成從用戶id中記憶了大量不具有概括性的信息,從而顯著地降低了測(cè)試數(shù)據(jù)集的效果沿腰。
4 DISCUSSION
4.1 Role of Layer 4
????關(guān)于網(wǎng)絡(luò)第4層是否有必要包含在模型中的問題览徒。為了回答這個(gè)問題,我們對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行了修改矫俺,并研究模型的訓(xùn)練效果吱殉。我們將網(wǎng)絡(luò)第4層的寬度減少或增加2倍,甚至從模型中刪除厘托。結(jié)果表明友雳,這些修改不會(huì)影響在不同測(cè)試數(shù)據(jù)集的模型效果(測(cè)試集最高AUC)。盡管沒有危害铅匹,但在DNN模型中包含網(wǎng)絡(luò)第4層是沒有任何用處的押赊。
4.2?Regularization
? ??上一節(jié)中的分析顯示,當(dāng)過度擬合時(shí),模型對(duì)輸入變得十分敏感流礁。此外涕俗,第3層和第4層神經(jīng)元之間的高度相關(guān)性(圖8)意味著可能存在嚴(yán)重的co-adaptations[25]。有人可能希望使用正則化來控制過度擬合神帅,并在測(cè)試數(shù)據(jù)上獲得更好的性能再姑。我們使用了L1,L2正則和dropout 調(diào)試了各種超參數(shù)找御。但是沒有得到效果提升元镀。今后,在提高模型的泛化能力方面還需要做更多的探索霎桅。
4.3?Feature Treatment
? ??3.4小節(jié)揭示了模型在過度擬合時(shí)對(duì)用戶id的特征組非常敏感的問題栖疑。除了正則化之外,通過優(yōu)化輸入特征也可以提高模型的泛化能力滔驶。用戶id是一個(gè)高度細(xì)粒度的特性組遇革。直接將其輸入到基于嵌入的深層神經(jīng)網(wǎng)絡(luò)可能不是最佳選擇。遵循Wide&Deep[6]的思想揭糕,我們從embedding層中刪除用戶id萝快。每個(gè)用戶id的偏差由一個(gè)浮點(diǎn)數(shù)表示,并添加到輸出層中
? ? (4)
這個(gè)偏置和模型其他部分一起訓(xùn)練插佛。這種方式可以提升測(cè)試集的AUC大約0.1%杠巡。
5?APPLICATIONS
????利用上面介紹的可視化和分析技術(shù),我們將在本節(jié)討論一些實(shí)際應(yīng)用:
????1. 預(yù)測(cè)的CTR得分的分布對(duì)實(shí)時(shí)競(jìng)價(jià)拍賣非常重要雇寇。了解分?jǐn)?shù)分布可以幫助我們?cè)O(shè)計(jì)更好的校準(zhǔn)方法[13氢拥,19]。另外锨侯,分?jǐn)?shù)分布有助于發(fā)現(xiàn)異常值或不適合的樣本嫩海,這反過來又可以用來改進(jìn)模型。
????2.?對(duì)模型內(nèi)部狀態(tài)和梯度信號(hào)的檢測(cè)打開了DNN模型的“黑匣子”囚痴,有助于我們了解模型的機(jī)理和特征的影響叁怪。這些方法可以用來診斷模型,比如(不局限于)underfitting/overfitting深滚、梯度爆炸/消失奕谭,無效的網(wǎng)絡(luò)結(jié)構(gòu)等等。更深層次的了解模型機(jī)制可以幫助我們?cè)O(shè)計(jì)更棒的模型結(jié)構(gòu)痴荐,訓(xùn)練算法以及特征血柳。
? ? 3. 對(duì)于在線廣告系統(tǒng)化,監(jiān)控模型的在線性能和數(shù)據(jù)管道的健康狀況是非常重要的生兆。為模型輸入有問題的數(shù)據(jù)可能導(dǎo)致災(zāi)難难捌。然而描述和監(jiān)控極度稀疏和高維的數(shù)據(jù)又是十分困難的。此外,監(jiān)視模型的線上效果可能還不夠根吁。每次競(jìng)價(jià)模型就會(huì)預(yù)測(cè)數(shù)百個(gè)候選廣告的點(diǎn)擊率员淫,而只有極少數(shù)廣告能夠贏得競(jìng)價(jià)并從中得到反饋。而經(jīng)典的性能指標(biāo)主要基于這些反饋击敌,因此只能覆蓋有限部分的有偏數(shù)據(jù)介返。
? ? DNN模型天然具有將稀疏的數(shù)據(jù)數(shù)據(jù)轉(zhuǎn)換為稠密的數(shù)字表示。因此愚争,神經(jīng)元輸出和梯度信號(hào)的統(tǒng)計(jì)可以作為一種新的監(jiān)測(cè)輸入數(shù)據(jù)分布的指標(biāo)實(shí)現(xiàn)映皆。請(qǐng)注意挤聘,計(jì)算這些數(shù)據(jù)是不需要反饋標(biāo)簽的轰枝。例如,如圖7所示组去,網(wǎng)絡(luò)第3層輸出的平均標(biāo)準(zhǔn)差隨輸入數(shù)據(jù)分布的自然變化而變化鞍陨。有問題的輸入數(shù)據(jù)會(huì)導(dǎo)致統(tǒng)計(jì)數(shù)據(jù)發(fā)生更大的變化。
6?CONCLUSION
? ??在這項(xiàng)工作中从隆,我們?cè)谏窠?jīng)元的水平上可視化并分析了一個(gè)簡(jiǎn)單的DNN CTR模型诚撵。在一系列的數(shù)據(jù)集上進(jìn)行了模型訓(xùn)練和評(píng)估。端到端的檢查了模型键闺。使用了多種方法來研究神經(jīng)元的狀態(tài)寿烟。特征embedding的梯度用于創(chuàng)建顯著性映射來描述特征組的影響。這些分析提供了對(duì)模型機(jī)制的深入了解辛燥,幫助我們監(jiān)控筛武、診斷和優(yōu)化模型。
? ??目前挎塌,我們正在應(yīng)用這些方法為我們的在線廣告平臺(tái)構(gòu)建一個(gè)基于模型的評(píng)估和監(jiān)控系統(tǒng)徘六。基于我們的工業(yè)場(chǎng)景榴都,未來的工作將集中在探索更多解釋深度學(xué)習(xí)的方法待锈,研究更復(fù)雜的算法,并應(yīng)用這些方法設(shè)計(jì)更好的模型和算法嘴高。
REFERENCES
[1] Mart′?n Abadi, Ashish Agarwal, Paul Barham, Eugene Brevdo, Zhifeng Chen,
Craig Citro, Greg S Corrado, Andy Davis, Je.rey Dean, Ma.hieu Devin, et al.
2016. Tensor.ow: Large-scale machine learning on heterogeneous distributed
systems. arXiv preprint arXiv:1603.04467 (2016). h.ps://www.tensor.ow.org/
[2] Guillaume Alain and Yoshua Bengio. 2016. Understanding intermediate layers
using linear classi.er probes. arXiv preprint arXiv:1610.01644 (2016).
[3] Leila Arras, Gr′egoire Montavon, Klaus-Robert M¨uller, andWojciech Samek. 2017.
Explaining recurrent neural network predictions in sentiment analysis. arXiv
preprint arXiv:1706.07206 (2017).
[4] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2014. Neural machine
translation by jointly learning to align and translate. arXiv preprint
arXiv:1409.0473 (2014).
[5] Yoshua Bengio et al. 2009. Learning deep architectures for AI. Foundations and
trends? in Machine Learning 2, 1 (2009), 1–127.
[6] Heng-Tze Cheng and Levent Koc. 2016. Wide & deep learning for recommender
systems. In Proceedings of the ACM 1st Workshop on Deep Learning for Recommender
Systems. 7–10.
[7] Paul Covington, Jay Adams, and Emre Sargin. 2016. Deep neural networks for
youtube recommendations. In Proceedings of ACM Conference on Recommender
Systems. 191–198.
[8] John Duchi, Elad Hazan, and Yoram Singer. 2011. Adaptive subgradient methods
for online learning and stochastic optimization. Journal of Machine Learning
Research 12, Jul (2011), 2121–2159.
[9] Tiezheng Ge, Liqin Zhao, Guorui Zhou, Keyu Chen, Shuying Liu, Huiming
Yi, Zelin Hu, Bochao Liu, Peng Sun, Haoyu Liu, et al. 2017. Image Ma.ers:
Jointly Train Advertising CTR Model with Image Representation of Ad and User
Behavior. arXiv preprint arXiv:1711.06505 (2017).
[10] Xavier Glorot and Yoshua Bengio. 2010. Understanding the di.culty of training
deep feedforward neural networks. Journal of Machine Learning Research 9
(2010), 249–256.
[11] Ian Goodfellow, Yoshua Bengio, and Aaron Courville. 2016. Deep Learning. MIT
Press.
[12] .ore Graepel, Joaquin .i? nonero Candela, .omas Borchert, and Ralf Herbrich.
2010. Web-scale Bayesian Click-through Rate Prediction for Sponsored Search
Advertising in Microso.’s Bing Search Engine. In Proceedings of the 27th International
Conference on International Conference on Machine Learning (ICML’10).
Omnipress, USA, 13–20.
[13] Xinran He, Junfeng Pan, Ou Jin, Tianbing Xu, Bo Liu, Tao Xu, Yanxin Shi,
Antoine Atallah, Ralf Herbrich, Stuart Bowers, et al. 2014. Practical lessons from
predicting clicks on ads at facebook. In Proceedings of the Eighth International
Workshop on Data Mining for Online Advertising. ACM, 1–9.
[14] Andrej Karpathy, Justin Johnson, and Fei-Fei Li. 2015. Visualizing and understanding
recurrent networks. arXiv preprint arXiv:1506.02078 (2015).
[15] Pangwei Koh and Percy Liang. 2017. Understanding Black-box Predictions via
In.uence Functions. In International Conference on Machine Learning. 1885–1894.
[16] Jiwei Li, Xinlei Chen, Eduard Hovy, and Dan Jurafsky. 2016. Visualizing and
Understanding Neural Models in NLP. arXiv preprint arXiv:1506.01066v2 (2016).
[17] Laurens van der Maaten and Geo.rey Hinton. 2008. Visualizing data using t-SNE.
Journal of machine learning research 9, Nov (2008), 2579–2605.
[18] Aravindh Mahendran and Andrea Vedaldi. 2016. Visualizing deep convolutional
neural networks using natural pre-images. International Journal of Computer
Vision 120, 3 (2016), 233–255.
[19] Brendan McMahan, Gary Holt, David Sculley, Michael Young, Dietmar Ebner,
Julian Grady, Lan Nie, Todd Phillips, Eugene Davydov, Daniel Golovin, et al.
2013. Ad click prediction: a view from the trenches. In Proceedings of the 19th
ACM SIGKDD international conference on Knowledge discovery and data mining.
ACM, 1222–1230.
[20] Kexin Pei, Yinzhi Cao, Junfeng Yang, and Suman Jana. 2017. Deepxplore: Automated
whitebox testing of deep learning systems. In Proceedings of the 26th
Symposium on Operating Systems Principles. ACM, 1–18.
[21] Paulo E Rauber, Samuel G Fadel, Alexandre X Falcao, and Alexandru C Telea. 2017.
Visualizing the hidden activity of arti.cial neural networks. IEEE transactions on
visualization and computer graphics 23, 1 (2017), 101–110.
[22] Andrew Michael Saxe, Yamini Bansal, Joel Dapello, Madhu Advani, Artemy
Kolchinsky, Brendan Daniel Tracey, and David Daniel Cox. 2018. On the Information
Bo.leneck .eory of Deep Learning. In International Conference on
Learning Representations. h.ps://openreview.net/forum?id=ry WPG-A-
[23] Ying Shan and T Ryan Hoens. 2016. Deep crossing: Web-scale modeling without
manually cra.ed combinatorial features. In Proceedings of ACM Conference on
Knowledge Discovery and Data Mining.
[24] Ravid Shwartz-Ziv and Na.ali Tishby. 2017. Opening the black box of deep
neural networks via information. arXiv preprint arXiv:1703.00810 (2017).
[25] Nitish Srivastava, Geo.rey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan
Salakhutdinov. 2014. Dropout: A simple way to prevent neural networks from
over..ing. .e Journal of Machine Learning Research 15, 1 (2014), 1929–1958.
[26] Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru
Erhan, Ian Goodfellow, and Rob Fergus. 2013. Intriguing properties of neural
networks. arXiv preprint arXiv:1312.6199 (2013).
[27] Zhiyuan Tang, Ying Shi, Dong Wang, Yang Feng, and Shiyue Zhang. 2017. Memory
visualization for gated recurrent neural networks in speech recognition.
Proceedings of IEEE International Conference on Acoustics, Speech and Signal
Processing (ICASSP) (2017).
[28] Na.ali Tishby and Noga Zaslavsky. 2015. Deep learning and the information
bo.leneck principle. In 2015 IEEE Information .eoryWorkshop (ITW). 1–5. h.ps:
//doi.org/10.1109/ITW.2015.7133169
[29] Ma.hew D Zeiler and Rob Fergus. 2014. Visualizing and understanding convolutional
networks. In European conference on computer vision. Springer, 818–833