姓名:付盼龍
轉(zhuǎn)載至全球人工智能
【嵌牛導(dǎo)讀】經(jīng)實(shí)踐證明滔驾,深度神經(jīng)網(wǎng)絡(luò)是執(zhí)行分類任務(wù)的一種非常有效的方法。當(dāng)輸入數(shù)據(jù)是高維度俄讹,輸入輸出之間關(guān)系異常復(fù)雜哆致,標(biāo)注訓(xùn)練樣本數(shù)量非常大的時候,深度神經(jīng)網(wǎng)絡(luò)的性能表現(xiàn)是非常好的患膛。但是很難解釋為什么學(xué)習(xí)網(wǎng)絡(luò)在一個特定的測試用例做出特定的分類決策摊阀。這主要是由于它們對于分布式分層表示的依賴。如果我們能夠充分利用從神經(jīng)網(wǎng)絡(luò)所獲得的知識踪蹬,并在一個依賴分層決策的模型中表達(dá)相同的知識胞此,那么解釋一個特定的決策將會容易得多。我們描述了一種使用已訓(xùn)練的神經(jīng)網(wǎng)絡(luò)創(chuàng)建一種軟決策樹的方法跃捣,該方法的泛化效果要比直接從訓(xùn)練數(shù)據(jù)中得以學(xué)習(xí)要好得多漱牵。
【嵌牛提問】神經(jīng)網(wǎng)絡(luò)如何變?yōu)闆Q策樹?
【嵌牛鼻子】神經(jīng)網(wǎng)絡(luò) 決策樹
【嵌牛正文】
深度神經(jīng)網(wǎng)絡(luò)的優(yōu)秀泛化能力取決于它們在隱藏層中分布式表示的使用疚漆,但這些表示難以理解酣胀。對于第一個隱藏層,我們可以理解是什么原因?qū)е铝艘粋€單元的激活娶聘,而對于最后一個隱藏層闻镶,我們可以理解激活一個單元所產(chǎn)生的效果,但是對于其他隱藏層趴荸,理解一個特征激活的產(chǎn)生原因和造成的影響要困難得多儒溉,尤其是就輸入和輸出變量這些有意義的變量而言。與此同時发钝,隱藏層中的單元將輸入向量的表示分解為一組特征激活顿涣,通過這種方式波闹,激活特征的組合效果能夠在下一隱藏層中產(chǎn)生適當(dāng)?shù)姆植际奖硎尽_@使得我們很難獨(dú)立性地理解任何特定特征激活的函數(shù)作用涛碑,因?yàn)樗倪呺H效應(yīng)依賴于同一層中所有其他單元的影響精堕。
深度網(wǎng)絡(luò)通過對訓(xùn)練數(shù)據(jù)的輸入和輸出之間關(guān)系中的大量弱統(tǒng)計(jì)規(guī)律進(jìn)行建模從而做出可靠的決策歹篓,基于這一事實(shí),上述困難進(jìn)一步加深揉阎,而且庄撮,神經(jīng)網(wǎng)絡(luò)中沒有任何東西可以從訓(xùn)練集的抽樣特性所產(chǎn)生的偽規(guī)律中區(qū)分這些弱規(guī)律,即數(shù)據(jù)的真實(shí)屬性毙籽。面對所有這些困難洞斯,放棄理解深度神經(jīng)網(wǎng)絡(luò)是如何通過理解單一隱藏單元所作所為來進(jìn)行一個分類決策的想法,似乎是明智的坑赡。
相比之下烙如,決策樹是如何進(jìn)行任意特定的分類就很容易解釋了,因?yàn)檫@取決于一個相對較短的決策序列毅否,且每個決策都直接基于輸入數(shù)據(jù)亚铁。然而,決策樹通常不會像神經(jīng)網(wǎng)絡(luò)那樣泛化螟加。與神經(jīng)網(wǎng)絡(luò)中的隱藏單元不同的是徘溢,決策樹較低級別的典型節(jié)點(diǎn)僅被一小部分訓(xùn)練數(shù)據(jù)所使用,因此決策樹的較低部分傾向于過度擬合仰迁,除非與樹的深度相比甸昏,訓(xùn)練集的大小大的程度能夠呈現(xiàn)出指數(shù)級。
我們提出了一種全新的解決泛化和可解釋性之間矛盾的方法哄芜。我們不是試圖了解深度神經(jīng)網(wǎng)絡(luò)是如何做出決策的,而是使用深度神經(jīng)網(wǎng)絡(luò)來訓(xùn)練一個決策樹柬唯,它會對神經(jīng)網(wǎng)絡(luò)所發(fā)現(xiàn)的輸入輸出函數(shù)進(jìn)行模仿认臊,但是以一種完全不同的方式運(yùn)行。如果有大量未標(biāo)注的數(shù)據(jù)锄奢,則可以使用神經(jīng)網(wǎng)絡(luò)來創(chuàng)建一個更大的標(biāo)注數(shù)據(jù)集用以訓(xùn)練決策樹失晴,從而克服決策樹的統(tǒng)計(jì)無效性問題。即使未標(biāo)注的數(shù)據(jù)不可用拘央,也有可能利用生成建模方面所取得的最新進(jìn)展涂屁,從一個類似數(shù)據(jù)分布的分布中生成合成的未標(biāo)注數(shù)據(jù)。在不使用未標(biāo)注的數(shù)據(jù)的情況下堪滨,我們可以通過使用一種叫做提煉(distillation)的技術(shù)以及一種能夠做軟決策的決策胯陋,將神經(jīng)網(wǎng)絡(luò)的泛化能力遷移到?jīng)Q策樹中。
在測試期間制轰,我們使用決策樹作為我們的模型前计。它的執(zhí)行效果可能會比神經(jīng)網(wǎng)絡(luò)稍微差一點(diǎn),但它通常會快得多垃杖,而且現(xiàn)在我們有了一個模型男杈,可以直接對其決策進(jìn)行解釋和參與其中。現(xiàn)在调俘,我們首先對我們所使用的決策樹的類型進(jìn)行描述伶棒。我們之所以做出這個選擇是為了便于將從深度神經(jīng)網(wǎng)絡(luò)獲得的知識簡化到?jīng)Q策樹中。
我們已經(jīng)描述了一種使用已訓(xùn)練的神經(jīng)網(wǎng)絡(luò)彩库,以軟決策樹的形式創(chuàng)建一個更具可解釋性的模型的方法肤无,其中,決策樹是通過隨機(jī)梯度下降進(jìn)行訓(xùn)練的骇钦,利用神經(jīng)網(wǎng)絡(luò)的預(yù)測以便提供更多的信息目標(biāo)宛渐。軟決策樹使用已學(xué)習(xí)的過濾器做出一個基于輸入樣本的分層決策,最終選擇一個特定的覆蓋所有類的靜態(tài)概率分布作為其輸出。這種軟決策樹的泛化能力要比直接在數(shù)據(jù)上進(jìn)行訓(xùn)練好得多窥翩,但性能表現(xiàn)要比用來提供對其進(jìn)行訓(xùn)練的軟目標(biāo)的神經(jīng)網(wǎng)絡(luò)差得多业岁。因此,如果能夠解釋一個模型為什么要以特定方式對特定測試用例進(jìn)行分類是至關(guān)重要的話鳍烁,那么我們就可以使用軟決策樹叨襟,但是,如果我們使用深度神經(jīng)網(wǎng)絡(luò)來改進(jìn)這個具有可解釋性模型的訓(xùn)練性能的話糊闽,是非常有價值的爹梁。
原文:https://arxiv.org/pdf/1711.09784.pdf