Tap into the dark knowledge using neural nets — Knowledge distillation知識(shí)蒸餾

動(dòng)機(jī):任何機(jī)器學(xué)習(xí) / 人工智能模型的主要目標(biāo)都取決于它在看不見的數(shù)據(jù)上的概括能力,而不是在訓(xùn)練數(shù)據(jù)上的表現(xiàn)。 如果我們更仔細(xì)地研究這個(gè)目標(biāo)钦奋,我們更傾向于使用不同的模型來適應(yīng)訓(xùn)練和推理的目的蓄喇。 在訓(xùn)練過程中,我們需要深入而復(fù)雜的模型來訓(xùn)練大量的訓(xùn)練數(shù)據(jù)氧腰,但是在推理過程中枫浙,我們只需要一個(gè)更輕量級(jí)的模型來很好地概括任何看不見的數(shù)據(jù)。 較輕的模型在生產(chǎn)推理過程中具有較好的性能古拴。 因此箩帚,本文的上下文設(shè)置是為了看看是否有一種有效的方法可以將這些廣義的知識(shí)提煉到一個(gè)更輕松的模型中,從而得到兩全其美的結(jié)果黄痪。

??本文引用了神經(jīng)網(wǎng)絡(luò)和 MNIST 數(shù)字識(shí)別任務(wù)來說明知識(shí)提取的概念紧帕,但同樣的概念可以擴(kuò)展到任何 ml / ai 模型。

參考文獻(xiàn): https://arxiv.org/abs/1503.02531

代碼:https://tinyurl.com/yb4en6e3

Transfer learning (遷移學(xué)習(xí))和Knowledge distillation(知識(shí)蒸餾)區(qū)別:遷移學(xué)習(xí)和知識(shí)蒸餾的目標(biāo)不同。
在遷移學(xué)習(xí)中是嗜,權(quán)值從一個(gè)預(yù)先訓(xùn)練好的網(wǎng)絡(luò)轉(zhuǎn)移到一個(gè)新的網(wǎng)絡(luò)愈案,預(yù)先訓(xùn)練好的網(wǎng)絡(luò)應(yīng)該與新的網(wǎng)絡(luò)結(jié)構(gòu)完全匹配。 這意味著新的網(wǎng)絡(luò)本質(zhì)上和預(yù)先訓(xùn)練過的網(wǎng)絡(luò)一樣深?yuàn)W和復(fù)雜鹅搪。
然而站绪,知識(shí)蒸餾的目的是不同的。其目的不是轉(zhuǎn)移權(quán)重丽柿,而是將復(fù)雜模型的一般化轉(zhuǎn)移到更輕的模型恢准。

Teacher-Student model:見下圖1。在這個(gè)例子中甫题,Teacher是一個(gè)深層的神經(jīng)網(wǎng)絡(luò)馁筐,已經(jīng)用足夠好的正則化(或可以是任何其他集成模型)對(duì)大量數(shù)據(jù)進(jìn)行訓(xùn)練,因此其主要目標(biāo)是可以很好地概括看不見的數(shù)據(jù)幔睬。 Student網(wǎng)絡(luò)是一個(gè)淺淺的網(wǎng)絡(luò)眯漩,由Teacher進(jìn)行培訓(xùn),其主要目標(biāo)是: 學(xué)習(xí)大部分Teacher 的概括知識(shí)麻顶,并且更輕松赦抖。 考慮到嚴(yán)格的生產(chǎn)限制,顯然辅肾,較輕的模型在生產(chǎn)中是首選队萤,因?yàn)樗梢钥焖龠M(jìn)行預(yù)測(cè)。 在掌握了剩余術(shù)語之后矫钓,我們將回到該主題要尔。

圖1. Teacher-Student 結(jié)構(gòu)

softmax activation 中的temperature概念

使用 softmax 的主要優(yōu)點(diǎn)是輸出概率范圍。 輸出概率的范圍是從0到1新娜,所有概率之和等于1赵辕。 它返回每個(gè)類的概率,目標(biāo)類的概率很高概龄。


圖2a:Regular Softmax function

該公式計(jì)算給定輸入值的指數(shù)(e 次方)和輸入值中所有值的指數(shù)和还惠。 然后輸入值的指數(shù)與指數(shù)值之和的比值就是softmax函數(shù)的輸出。


圖2b:High temperature softmax

當(dāng)我們將輸入“ z”(也稱為神經(jīng)網(wǎng)絡(luò)中的對(duì)數(shù))除以“ T”(temperature)時(shí)私杜,可獲得high temperature softmax激活函數(shù)蚕键。

為了說明temperature對(duì) softmax 激活的影響,見下圖3衰粹。 可以觀察到锣光,隨著溫度的升高,預(yù)測(cè)數(shù)字“7”的概率變得軟化和柔化铝耻。 我們所說的軟化概率是什么意思誊爹?

如果你沿著綠線(繪制在較高的temperature 7)并仔細(xì)觀察概率值,你可以看到模型清楚地顯示出這樣一個(gè)事實(shí),即它預(yù)測(cè)的數(shù)字“7”看起來更像9或1而不是6(預(yù)測(cè)的概率為6小于0.01替废,而預(yù)測(cè)的概率為1大約0.075)箍铭。

如果你沿著橙色 / 藍(lán)色線(在較低temperature繪制)觀察,并仔細(xì)觀察概率值椎镣,你可以看到模型預(yù)測(cè)的數(shù)字“7”具有很高的置信度,但不能區(qū)分預(yù)測(cè)的數(shù)字7是接近1還是6(它們都具有“非常接近零”的概率)兽赁。

在不同temperature下數(shù)字7的概率預(yù)測(cè)

Dark knowledge:我們可以很好地將我們自己的猜測(cè)與手寫的數(shù)字“7”(如下圖所示)聯(lián)系起來状答,然后說它是否看起來與1相似ー這很像這個(gè)模型,在high temperature下預(yù)測(cè)數(shù)字“7”時(shí)刀崖,輸出“1”的概率更高惊科。

數(shù)字1

數(shù)字7還是1?

唯一的區(qū)別是亮钦,我們?nèi)祟悷o法量化這個(gè)“7”看起來更接近于1馆截,而high temperature模型能夠做到這一點(diǎn),并且具有很高的精確度蜂莉。 因此蜡娶,一個(gè)high temperature模型被認(rèn)為具有dark knowledgeーー也就是說,除了僅僅預(yù)測(cè)數(shù)字7映穗,它還儲(chǔ)存了數(shù)字7與數(shù)字1有多么相似的信息窖张。

一個(gè)low temperature模型(我們通常遇到的模型,沒有temperature的softmax)通常是很好的硬預(yù)測(cè)蚁滋,我們失去了這個(gè)dark knowledge宿接。 知識(shí)蒸餾背后的主要思想是將這種dark knowledge從一個(gè)訓(xùn)練有素的Teacher轉(zhuǎn)移到一個(gè)更輕松的學(xué)生模式。

Teacher-Student training:現(xiàn)在我們已經(jīng)理解了上下文和所有其他重要的術(shù)語辕录,讓我們回到我們?cè)赥eacher-Student模型中的位置睦霎。將這些概括轉(zhuǎn)移給Student的工作原理非常簡單,如圖1所示走诞。在訓(xùn)練Student時(shí)副女,不是將一個(gè)one-hot encoded values 作為硬目標(biāo),而是將這些軟化的概率(通過應(yīng)用high temperature softmax收集的輸出)作為目標(biāo)速梗。我們還可以定制一個(gè)知識(shí)蒸餾損失函數(shù)(參見圖1插圖)肮塞,將知識(shí)蒸餾損失計(jì)算為軟目標(biāo)和硬目標(biāo)的連接向量的對(duì)應(yīng)分量之間的對(duì)數(shù)損失加權(quán)平均。

結(jié)果表明姻锁,以這種方式接受Teacher訓(xùn)練的Student(準(zhǔn)確性提高了1% 到2%)能夠很好地概括看不見的數(shù)據(jù)枕赵,而不是單獨(dú)接受相同數(shù)據(jù)訓(xùn)練的Student。 這里有幾個(gè)重要的注意事項(xiàng)ーー

  1. Student 和Teacher在同一個(gè)high temperature softmax下進(jìn)行訓(xùn)練
  2. 從Student模型的推論應(yīng)該是用通常的softmax激活(即沒有temperature)

知識(shí)蒸餾的優(yōu)點(diǎn):

  1. 使用更輕的模型
  2. 在嚴(yán)格的生產(chǎn)約束條件下位隶,計(jì)算需求少拷窜,性能優(yōu)越
    3.比獨(dú)立模型更準(zhǔn)確
    4.即使只有較少的訓(xùn)練數(shù)據(jù)可用于Student 模型,仍然是可用的,只需要有一個(gè)訓(xùn)練好的Teacher就足夠了
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末篮昧,一起剝皮案震驚了整個(gè)濱河市赋荆,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌懊昨,老刑警劉巖窄潭,帶你破解...
    沈念sama閱讀 206,214評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異酵颁,居然都是意外死亡嫉你,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門躏惋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來幽污,“玉大人,你說我怎么就攤上這事簿姨【辔螅” “怎么了?”我有些...
    開封第一講書人閱讀 152,543評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵扁位,是天一觀的道長准潭。 經(jīng)常有香客問我,道長贤牛,這世上最難降的妖魔是什么惋鹅? 我笑而不...
    開封第一講書人閱讀 55,221評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮殉簸,結(jié)果婚禮上闰集,老公的妹妹穿的比我還像新娘。我一直安慰自己般卑,他們只是感情好武鲁,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著蝠检,像睡著了一般沐鼠。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上叹谁,一...
    開封第一講書人閱讀 49,007評(píng)論 1 284
  • 那天饲梭,我揣著相機(jī)與錄音,去河邊找鬼焰檩。 笑死憔涉,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的析苫。 我是一名探鬼主播兜叨,決...
    沈念sama閱讀 38,313評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼穿扳,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了国旷?” 一聲冷哼從身側(cè)響起矛物,我...
    開封第一講書人閱讀 36,956評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎跪但,沒想到半個(gè)月后履羞,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,441評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡特漩,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評(píng)論 2 323
  • 正文 我和宋清朗相戀三年吧雹,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片涂身。...
    茶點(diǎn)故事閱讀 38,018評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖搓蚪,靈堂內(nèi)的尸體忽然破棺而出蛤售,到底是詐尸還是另有隱情,我是刑警寧澤妒潭,帶...
    沈念sama閱讀 33,685評(píng)論 4 322
  • 正文 年R本政府宣布悴能,位于F島的核電站,受9級(jí)特大地震影響雳灾,放射性物質(zhì)發(fā)生泄漏漠酿。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評(píng)論 3 307
  • 文/蒙蒙 一谎亩、第九天 我趴在偏房一處隱蔽的房頂上張望炒嘲。 院中可真熱鬧,春花似錦匈庭、人聲如沸夫凸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽夭拌。三九已至,卻和暖如春衷咽,著一層夾襖步出監(jiān)牢的瞬間鸽扁,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評(píng)論 1 261
  • 我被黑心中介騙來泰國打工镶骗, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留桶现,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,467評(píng)論 2 352
  • 正文 我出身青樓卖词,卻偏偏與公主長得像巩那,于是被迫代替她去往敵國和親吏夯。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容