Tap into the dark knowledge using neural nets — Knowledge distillation知識(shí)蒸餾

動(dòng)機(jī)：任何機(jī)器學(xué)習(xí) / 人工智能模型的主要目標(biāo)都取決于它在看不見的數(shù)據(jù)上的概括能力，而不是在訓(xùn)練數(shù)據(jù)上的表現(xiàn)。如果我們更仔細(xì)地研究這個(gè)目標(biāo)钦奋，我們更傾向于使用不同的模型來適應(yīng)訓(xùn)練和推理的目的蓄喇。在訓(xùn)練過程中，我們需要深入而復(fù)雜的模型來訓(xùn)練大量的訓(xùn)練數(shù)據(jù)氧腰，但是在推理過程中枫浙，我們只需要一個(gè)更輕量級(jí)的模型來很好地概括任何看不見的數(shù)據(jù)。較輕的模型在生產(chǎn)推理過程中具有較好的性能古拴。因此箩帚，本文的上下文設(shè)置是為了看看是否有一種有效的方法可以將這些廣義的知識(shí)提煉到一個(gè)更輕松的模型中，從而得到兩全其美的結(jié)果黄痪。

??本文引用了神經(jīng)網(wǎng)絡(luò)和 MNIST 數(shù)字識(shí)別任務(wù)來說明知識(shí)提取的概念紧帕，但同樣的概念可以擴(kuò)展到任何 ml / ai 模型。

參考文獻(xiàn)： https://arxiv.org/abs/1503.02531

代碼：https://tinyurl.com/yb4en6e3

Transfer learning （遷移學(xué)習(xí)）和Knowledge distillation（知識(shí)蒸餾）區(qū)別：遷移學(xué)習(xí)和知識(shí)蒸餾的目標(biāo)不同。
在遷移學(xué)習(xí)中是嗜，權(quán)值從一個(gè)預(yù)先訓(xùn)練好的網(wǎng)絡(luò)轉(zhuǎn)移到一個(gè)新的網(wǎng)絡(luò)愈案，預(yù)先訓(xùn)練好的網(wǎng)絡(luò)應(yīng)該與新的網(wǎng)絡(luò)結(jié)構(gòu)完全匹配。這意味著新的網(wǎng)絡(luò)本質(zhì)上和預(yù)先訓(xùn)練過的網(wǎng)絡(luò)一樣深?yuàn)W和復(fù)雜鹅搪。
然而站绪，知識(shí)蒸餾的目的是不同的。其目的不是轉(zhuǎn)移權(quán)重丽柿，而是將復(fù)雜模型的一般化轉(zhuǎn)移到更輕的模型恢准。

Teacher-Student model：見下圖1。在這個(gè)例子中甫题，Teacher是一個(gè)深層的神經(jīng)網(wǎng)絡(luò)馁筐，已經(jīng)用足夠好的正則化（或可以是任何其他集成模型）對(duì)大量數(shù)據(jù)進(jìn)行訓(xùn)練，因此其主要目標(biāo)是可以很好地概括看不見的數(shù)據(jù)幔睬。 Student網(wǎng)絡(luò)是一個(gè)淺淺的網(wǎng)絡(luò)眯漩，由Teacher進(jìn)行培訓(xùn)，其主要目標(biāo)是: 學(xué)習(xí)大部分Teacher 的概括知識(shí)麻顶，并且更輕松赦抖。考慮到嚴(yán)格的生產(chǎn)限制，顯然辅肾，較輕的模型在生產(chǎn)中是首選队萤，因?yàn)樗梢钥焖龠M(jìn)行預(yù)測(cè)。在掌握了剩余術(shù)語之后矫钓，我們將回到該主題要尔。

圖1. Teacher-Student 結(jié)構(gòu)

softmax activation 中的temperature概念

使用 softmax 的主要優(yōu)點(diǎn)是輸出概率范圍。輸出概率的范圍是從0到1新娜，所有概率之和等于1赵辕。它返回每個(gè)類的概率，目標(biāo)類的概率很高概龄。

圖2a：Regular Softmax function

該公式計(jì)算給定輸入值的指數(shù)(e 次方)和輸入值中所有值的指數(shù)和还惠。然后輸入值的指數(shù)與指數(shù)值之和的比值就是softmax函數(shù)的輸出。

圖2b：High temperature softmax

當(dāng)我們將輸入“ z”（也稱為神經(jīng)網(wǎng)絡(luò)中的對(duì)數(shù)）除以“ T”（temperature）時(shí)私杜，可獲得high temperature softmax激活函數(shù)蚕键。

為了說明temperature對(duì) softmax 激活的影響，見下圖3衰粹。可以觀察到锣光，隨著溫度的升高，預(yù)測(cè)數(shù)字“7”的概率變得軟化和柔化铝耻。我們所說的軟化概率是什么意思誊爹？

如果你沿著綠線(繪制在較高的temperature 7)并仔細(xì)觀察概率值，你可以看到模型清楚地顯示出這樣一個(gè)事實(shí)，即它預(yù)測(cè)的數(shù)字“7”看起來更像9或1而不是6(預(yù)測(cè)的概率為6小于0.01替废，而預(yù)測(cè)的概率為1大約0.075)箍铭。

如果你沿著橙色 / 藍(lán)色線(在較低temperature繪制)觀察，并仔細(xì)觀察概率值椎镣，你可以看到模型預(yù)測(cè)的數(shù)字“7”具有很高的置信度，但不能區(qū)分預(yù)測(cè)的數(shù)字7是接近1還是6(它們都具有“非常接近零”的概率)兽赁。

在不同temperature下數(shù)字7的概率預(yù)測(cè)

Dark knowledge：我們可以很好地將我們自己的猜測(cè)與手寫的數(shù)字“7”(如下圖所示)聯(lián)系起來状答，然后說它是否看起來與1相似ー這很像這個(gè)模型，在high temperature下預(yù)測(cè)數(shù)字“7”時(shí)刀崖，輸出“1”的概率更高惊科。

數(shù)字1

數(shù)字7還是1？

唯一的區(qū)別是亮钦，我們?nèi)祟悷o法量化這個(gè)“7”看起來更接近于1馆截，而high temperature模型能夠做到這一點(diǎn)，并且具有很高的精確度蜂莉。因此蜡娶，一個(gè)high temperature模型被認(rèn)為具有dark knowledgeーー也就是說，除了僅僅預(yù)測(cè)數(shù)字7映穗，它還儲(chǔ)存了數(shù)字7與數(shù)字1有多么相似的信息窖张。

一個(gè)low temperature模型(我們通常遇到的模型，沒有temperature的softmax)通常是很好的硬預(yù)測(cè)蚁滋，我們失去了這個(gè)dark knowledge宿接。知識(shí)蒸餾背后的主要思想是將這種dark knowledge從一個(gè)訓(xùn)練有素的Teacher轉(zhuǎn)移到一個(gè)更輕松的學(xué)生模式。

Teacher-Student training：現(xiàn)在我們已經(jīng)理解了上下文和所有其他重要的術(shù)語辕录，讓我們回到我們?cè)赥eacher-Student模型中的位置睦霎。將這些概括轉(zhuǎn)移給Student的工作原理非常簡單，如圖1所示走诞。在訓(xùn)練Student時(shí)副女，不是將一個(gè)one-hot encoded values 作為硬目標(biāo)，而是將這些軟化的概率（通過應(yīng)用high temperature softmax收集的輸出）作為目標(biāo)速梗。我們還可以定制一個(gè)知識(shí)蒸餾損失函數(shù)（參見圖1插圖）肮塞，將知識(shí)蒸餾損失計(jì)算為軟目標(biāo)和硬目標(biāo)的連接向量的對(duì)應(yīng)分量之間的對(duì)數(shù)損失加權(quán)平均。

結(jié)果表明姻锁，以這種方式接受Teacher訓(xùn)練的Student(準(zhǔn)確性提高了1% 到2%)能夠很好地概括看不見的數(shù)據(jù)枕赵，而不是單獨(dú)接受相同數(shù)據(jù)訓(xùn)練的Student。這里有幾個(gè)重要的注意事項(xiàng)ーー

Student 和Teacher在同一個(gè)high temperature softmax下進(jìn)行訓(xùn)練
從Student模型的推論應(yīng)該是用通常的softmax激活（即沒有temperature）

知識(shí)蒸餾的優(yōu)點(diǎn)：

使用更輕的模型
在嚴(yán)格的生產(chǎn)約束條件下位隶，計(jì)算需求少拷窜，性能優(yōu)越
3.比獨(dú)立模型更準(zhǔn)確
4.即使只有較少的訓(xùn)練數(shù)據(jù)可用于Student 模型，仍然是可用的，只需要有一個(gè)訓(xùn)練好的Teacher就足夠了

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末篮昧，一起剝皮案震驚了整個(gè)濱河市赋荆，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌懊昨，老刑警劉巖窄潭，帶你破解...
沈念sama閱讀 206,214評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異酵颁，居然都是意外死亡嫉你，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,307評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門躏惋，熙熙樓的掌柜王于貴愁眉苦臉地迎上來幽污，“玉大人，你說我怎么就攤上這事簿姨【辔螅” “怎么了？”我有些...
開封第一講書人閱讀 152,543評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵扁位，是天一觀的道長准潭。經(jīng)常有香客問我，道長贤牛，這世上最難降的妖魔是什么惋鹅？我笑而不...
開封第一講書人閱讀 55,221評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮殉簸，結(jié)果婚禮上闰集，老公的妹妹穿的比我還像新娘。我一直安慰自己般卑，他們只是感情好武鲁，可當(dāng)我...
茶點(diǎn)故事閱讀 64,224評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著蝠检，像睡著了一般沐鼠。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上叹谁，一...
開封第一講書人閱讀 49,007評(píng)論 1贊 284
城市分裂傳說
那天饲梭，我揣著相機(jī)與錄音，去河邊找鬼焰檩。笑死憔涉，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的析苫。我是一名探鬼主播兜叨，決...
沈念sama閱讀 38,313評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼穿扳，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了国旷？” 一聲冷哼從身側(cè)響起矛物，我...
開封第一講書人閱讀 36,956評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎跪但，沒想到半個(gè)月后履羞，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,441評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡特漩，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,925評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年吧雹，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片涂身。...
茶點(diǎn)故事閱讀 38,018評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖搓蚪，靈堂內(nèi)的尸體忽然破棺而出蛤售，到底是詐尸還是另有隱情，我是刑警寧澤妒潭，帶...
沈念sama閱讀 33,685評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布悴能，位于F島的核電站，受9級(jí)特大地震影響雳灾，放射性物質(zhì)發(fā)生泄漏漠酿。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,234評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一谎亩、第九天我趴在偏房一處隱蔽的房頂上張望炒嘲。院中可真熱鬧，春花似錦匈庭、人聲如沸夫凸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,240評(píng)論 0贊 19
一樁弒父案阱持，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽夭拌。三九已至，卻和暖如春衷咽，著一層夾襖步出監(jiān)牢的瞬間鸽扁，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,464評(píng)論 1贊 261
情欲美人皮
我被黑心中介騙來泰國打工镶骗，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留桶现，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,467評(píng)論 2贊 352
代替公主和親
正文我出身青樓卖词，卻偏偏與公主長得像巩那，于是被迫代替她去往敵國和親吏夯。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,762評(píng)論 2贊 345

Tap into the dark knowledge using neural nets — Knowledge distillation知識(shí)蒸餾

推薦閱讀更多精彩內(nèi)容