Distilling the Knowledge in a Neural Network 筆記

1. 介紹

在論文中翻斟,作者提出了先訓(xùn)練一個(gè)大的笨重的模型座掘,再使用distilling來將笨重的模型的知識(shí)遷移到小的模型中,用于實(shí)際部署霹购。
通常情況下佑惠,我們認(rèn)為一個(gè)模型的知識(shí)保存在它的參數(shù)中,這使得我們很難想象到如何來改變模型,而不丟失知識(shí)膜楷。然后旭咽,另一種較為抽象的對(duì)待知識(shí)的角度,是將知識(shí)看作是輸入到輸出的映射赌厅。
一種簡單地將大模型的泛化性能轉(zhuǎn)移到小模型的方式是穷绵,將大模型得到的類別概率作為小模型的soft targets來訓(xùn)練。
當(dāng)soft targets有很高的entropy時(shí)特愿,它們能夠提供足夠多的信息请垛,同時(shí)擁有較低的variance,所以小模型只需要很小的數(shù)據(jù)就能訓(xùn)練洽议,也可以使用很大的學(xué)習(xí)率宗收。

2. Distillation

通常情況下,我們使用softmax來將logitz_i轉(zhuǎn)變?yōu)楦怕?img class="math-inline" src="https://math.jianshu.com/math?formula=q_i" alt="q_i" mathimg="1">亚兄,如下:

(1)

T
是temperature混稽,通常設(shè)置為
1
,一個(gè)大的
T
會(huì)產(chǎn)生更加soft的概率分布审胚。

在最簡單的distillation中匈勋,通過在一個(gè)由笨重模型產(chǎn)生的transfer set上訓(xùn)練,并且使用soft target作為目標(biāo)膳叨,也就是在softmax中使用大的T來產(chǎn)生概率洽洁。在訓(xùn)練distilled模型時(shí),使用相同的T訓(xùn)練菲嘴,來進(jìn)行知識(shí)遷移饿自。

作者發(fā)現(xiàn)使用真實(shí)label和soft target的加權(quán)平均能夠得到很好的效果。也就是loss分兩部分龄坪,一部分是soft targets和預(yù)測(cè)值的cross entropy昭雌,但是使用和笨重模型產(chǎn)生soft target時(shí)相同的大的T值來計(jì)算softmax。另一部分是真實(shí)label和預(yù)測(cè)值的cross entropy健田,這時(shí)T為1烛卧。
soft targets產(chǎn)生的梯度多了一個(gè)\frac{1}{T^2},因此應(yīng)該乘一個(gè)T^2妓局。

2.1 Matching logits is a special case of distillation

假設(shè)distilled模型產(chǎn)生了logit z_i总放,笨重的模型產(chǎn)生的logits v_i,以及soft target 概率p_i好爬,transfer learning使用的temperature為T局雄,那么梯度為:

2

如果temperature相對(duì)于logits的大小來說比較高,可以使用如下近似:
3

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末抵拘,一起剝皮案震驚了整個(gè)濱河市哎榴,隨后出現(xiàn)的幾起案子型豁,更是在濱河造成了極大的恐慌,老刑警劉巖尚蝌,帶你破解...
    沈念sama閱讀 211,265評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件迎变,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡飘言,警方通過查閱死者的電腦和手機(jī)衣形,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來姿鸿,“玉大人谆吴,你說我怎么就攤上這事】猎ぃ” “怎么了句狼?”我有些...
    開封第一講書人閱讀 156,852評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長热某。 經(jīng)常有香客問我腻菇,道長,這世上最難降的妖魔是什么昔馋? 我笑而不...
    開封第一講書人閱讀 56,408評(píng)論 1 283
  • 正文 為了忘掉前任筹吐,我火速辦了婚禮,結(jié)果婚禮上秘遏,老公的妹妹穿的比我還像新娘丘薛。我一直安慰自己,他們只是感情好邦危,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,445評(píng)論 5 384
  • 文/花漫 我一把揭開白布洋侨。 她就那樣靜靜地躺著,像睡著了一般铡俐。 火紅的嫁衣襯著肌膚如雪凰兑。 梳的紋絲不亂的頭發(fā)上妥粟,一...
    開封第一講書人閱讀 49,772評(píng)論 1 290
  • 那天审丘,我揣著相機(jī)與錄音,去河邊找鬼勾给。 笑死滩报,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的播急。 我是一名探鬼主播脓钾,決...
    沈念sama閱讀 38,921評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼桩警!你這毒婦竟也來了可训?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,688評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎握截,沒想到半個(gè)月后飞崖,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,130評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡谨胞,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,467評(píng)論 2 325
  • 正文 我和宋清朗相戀三年固歪,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片胯努。...
    茶點(diǎn)故事閱讀 38,617評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡牢裳,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出叶沛,到底是詐尸還是另有隱情蒲讯,我是刑警寧澤,帶...
    沈念sama閱讀 34,276評(píng)論 4 329
  • 正文 年R本政府宣布灰署,位于F島的核電站伶椿,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏氓侧。R本人自食惡果不足惜脊另,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,882評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望约巷。 院中可真熱鬧偎痛,春花似錦、人聲如沸独郎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽氓癌。三九已至谓谦,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間贪婉,已是汗流浹背反粥。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評(píng)論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留疲迂,地道東北人才顿。 一個(gè)月前我還...
    沈念sama閱讀 46,315評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像尤蒿,于是被迫代替她去往敵國和親郑气。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,486評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容