wk
引言
在整篇文章論述開始之前鸣哀,我們先做一些概念性的講解鋪墊架忌。卷積神經(jīng)網(wǎng)絡(luò)的各層卷積單元在模型網(wǎng)絡(luò)中實際上有充當(dāng)了目標(biāo)檢測器的作用吞彤,盡管沒有提供對目標(biāo)位置的監(jiān)督我衬。雖然其擁有在卷積層中定位對象的非凡能力,但當(dāng)使用全連接層進(jìn)行分類時饰恕,這種能力就會喪失挠羔。基于此埋嵌,提出了CAM(類激活映射)的概念破加,采用全局平均池化,以熱力圖的形式告訴我們雹嗦,模型通過哪些像素點得知圖片屬于某個類別范舀,使模型透明化和具有可解釋性,如圖1所示:
1. Global Average Pooling的工作機制
這里我們假設(shè)最后的類別數(shù)為n了罪,最后一層含有n個特征圖锭环,求每張?zhí)卣鲌D所有像素的平均值,后接入一個有n個神經(jīng)元的全連接層泊藕。要有n個特征圖的原因在于辅辩,每個特征圖主要提取了某一類別相關(guān)的某些特征。
2. 什么是CAM娃圆?
CNN最后一層特征圖富含有最為豐富類別語意信息(可以理解為高度抽象的類別特征)玫锋,因此CAM基于最后一層特征圖進(jìn)行可視化。CAM能讓我們對CNN網(wǎng)絡(luò)有很好的解釋作用讼呢,利用特征圖權(quán)重疊加的原理獲得熱圖撩鹿,詳細(xì)工作原理如圖3所示。
設(shè)最后一層有n張?zhí)卣鲌D悦屏,記為三痰,分類層中一個神經(jīng)元有n個權(quán)重吧寺,一個神經(jīng)元對應(yīng)一類,設(shè)第個神經(jīng)元的權(quán)重為稚机,則第c類的CAM的生成方式為:
生成的CAM大小與最后一層特征圖的大小一致,接著進(jìn)行上采樣即可得到與原圖大小一致的CAM获搏。
2.1. 為什么如此計算可以得到類別相關(guān)區(qū)域
用GAP表示全局平均池化函數(shù)赖条,沿用上述符號,第c類的分類得分為常熙,GAP的權(quán)重為纬乍,特征圖大小為,第個特征圖第行第列的像素值為裸卫,則有:
特征圖中的一個像素對應(yīng)原圖中的一個區(qū)域仿贬,而像素值表示該區(qū)域提取到的特征,由上式可知的大小由特征圖中像素值與權(quán)重決定墓贿,特征圖中像素值與權(quán)重的乘積大于0茧泪,有利于將樣本分到該類,即CNN認(rèn)為原圖中的該區(qū)域具有類別相關(guān)特征聋袋。式1就是計算特征圖中的每個像素值是否具有類別相關(guān)特征队伟,如果有,我們可以通過上采樣幽勒,看看這個像素對應(yīng)的是原圖中的哪一部分嗜侮。GAP的出發(fā)點也是如此,即在訓(xùn)練過程中讓網(wǎng)絡(luò)學(xué)會判斷原圖中哪個區(qū)域具有類別相關(guān)特征啥容,由于GAP去除了多余的全連接層锈颗,并且沒有引入?yún)?shù),因此GAP可以降低過擬合的風(fēng)險咪惠』髦ǎ可視化的結(jié)果也表明,CNN正確分類的確是因為注意到了原圖中正確的類別相關(guān)特征硝逢。
2.2. CAM缺陷
需要修改網(wǎng)絡(luò)結(jié)構(gòu)并重新訓(xùn)練模型姨拥,導(dǎo)致在實際應(yīng)用中并不方便。
3. Grad-CAM
3.1. Grad-CAM結(jié)構(gòu)
Grad-CAM 和 CAM 基本思路一樣渠鸽,區(qū)別就在于如何獲取每個特征圖的權(quán)重叫乌,采用了梯度的全局平均來計算權(quán)重。定義了Grad-CAM中第個特征圖對應(yīng)類別c的權(quán)重:
其中徽缚,Z表示特征圖像素個數(shù)憨奸,表示第c類得分梯度,表示第個特征圖中凿试,位置處的像素值排宰。然后再求得所有的特征圖對應(yīng)的類別的權(quán)重后進(jìn)行加權(quán)求和似芝,這樣便可以得到最后的熱力圖,求和公式如下:
3.2. Grad-CAM效果
4. 結(jié)論
可視化可以進(jìn)一步區(qū)別分類板甘,準(zhǔn)確地更好地揭示分類器的可信賴性党瓮,并幫助識別數(shù)據(jù)集中的偏差。真正的AI應(yīng)用盐类,也更應(yīng)該讓人們信任和使用它的行為寞奸。
5. 代碼實現(xiàn)
https://github.com/jacobgil/keras-cam
參考文獻(xiàn)
- B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba. Object detectors emerge in deep scene cnns. International Conference on Learning Representations, 2015.
- Computers - Computer Graphics; Investigators from Georgia Institute of Technology Have Reported New Data on Computer Graphics (Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization). 2020, :355-.