原論文:Bayesian Compression for Deep Learning
作者:Max Welling團隊
摘要
? ? ? ? 采用貝葉斯分析稀疏的先驗栋烤,對網(wǎng)絡(luò)進行裁剪盆繁。主要創(chuàng)新點有: (1) 采用層級先驗來裁剪網(wǎng)絡(luò)節(jié)點,而非單個權(quán)重裁剪拆讯;(2) 通過使用后驗的不確定性來決定對節(jié)點權(quán)重壓縮的最優(yōu)精度。
背景
? ? ? ?深度學習的網(wǎng)絡(luò)有眾多的節(jié)點捏顺,但其中有很多無效而且冗余的結(jié)點偶芍。已有大量的方法來解決這類問題,一般的策略是減少網(wǎng)絡(luò)的結(jié)點和降低權(quán)重精度取胎。前者主要的方法對網(wǎng)絡(luò)進行裁剪和學生-老師模型的distilling方法展哭。
? ? ? ?從貝葉斯理論的角度,貝葉斯方法一方面可以采用稀疏先驗尋找最優(yōu)的模型結(jié)構(gòu)闻蛀,另一方面采用不確定后驗可以去除不重要的節(jié)點匪傍。這就涉及到與貝葉斯相關(guān)的最小描述長度原理。(后續(xù))