知識(shí)蒸餾（Knowledge Distilling），讓你的模型輕裝上陣——keras 實(shí)戰(zhàn)

深度學(xué)習(xí)在這兩年的發(fā)展可謂是突飛猛進(jìn)辛孵，為了提升模型性能丛肮，模型的參數(shù)量變得越來(lái)越多，模型自身也變得越來(lái)越大魄缚。在圖像領(lǐng)域中基于Resnet的卷積神經(jīng)網(wǎng)絡(luò)模型宝与，不斷延伸著網(wǎng)絡(luò)深度。而在自然語(yǔ)言處理領(lǐng)域（NLP）領(lǐng)域冶匹，BERT习劫，GPT等超大模型的誕生也緊隨其后。這些巨型模型在準(zhǔn)確性上大部分時(shí)候都吊打其他一眾小參數(shù)量模型嚼隘，可是它們?cè)诓渴痣A段诽里，往往需要占用巨大內(nèi)存資源，同時(shí)運(yùn)行起來(lái)也極其耗時(shí)飞蛹，這與工業(yè)界對(duì)模型吃資源少谤狡，低延時(shí)的要求完全背道而馳。所以很多在學(xué)術(shù)界呼風(fēng)喚雨的強(qiáng)大模型在企業(yè)的運(yùn)用過(guò)程中卻沒(méi)有那么順風(fēng)順?biāo)?/p>

知識(shí)蒸餾

為解決上述問(wèn)題卧檐，我們需要將參數(shù)量巨大的模型墓懂，壓縮成小參數(shù)量模型，這樣就可以在不失精度的情況下霉囚，使得模型占用資源少捕仔，運(yùn)行快，所以如何將這些大模型壓縮佛嬉，同時(shí)保持住頂尖的準(zhǔn)確率逻澳，成了學(xué)術(shù)界一個(gè)專門的研究領(lǐng)域。2015年Geoffrey Hinton 發(fā)表的Distilling the Knowledge in a Neural Network的論文中提出了知識(shí)蒸餾技術(shù)暖呕，就是為了解決模型壓而生的斜做。至于文章的細(xì)節(jié)這里筆者不做過(guò)多介紹，想了解的同學(xué)們可以點(diǎn)擊上方鏈接好好研讀原文湾揽。不過(guò)這篇文章的主要思想就如下方圖片所示：用一個(gè)老師模型（大參數(shù)模型）去教一個(gè)學(xué)生模型（小參數(shù)模型）瓤逼，在實(shí)做上就是用讓學(xué)生模型去學(xué)習(xí)已經(jīng)在目標(biāo)數(shù)據(jù)集上訓(xùn)練過(guò)的老師模型。盡管學(xué)生模型最終依然達(dá)不到老師模型的準(zhǔn)確性库物，但是被老師教過(guò)的學(xué)生模型會(huì)比自己?jiǎn)为?dú)訓(xùn)練的學(xué)生模型更加強(qiáng)大霸旗。

這里大家可能會(huì)產(chǎn)生疑惑，為什么讓學(xué)生模型去學(xué)習(xí)目標(biāo)數(shù)據(jù)集會(huì)比被老師模型教出來(lái)的差戚揭。產(chǎn)生這種結(jié)果可能原因是因?yàn)?strong>老師模型的輸出提供了比目標(biāo)數(shù)據(jù)集更加豐富的信息诱告，如下圖所示，老師模型的輸出民晒，不僅提供了輸入圖片上的數(shù)字是數(shù)字1的信息精居，而且還附帶著數(shù)字1和數(shù)字7和9比較像等額外信息锄禽。

知識(shí)蒸餾

知識(shí)蒸餾具體流程

接下來(lái)筆者介紹一下知識(shí)蒸餾在實(shí)做上的具體流程。

（1）定義一個(gè)參數(shù)量較大（強(qiáng)大的）的老師模型靴姿，和一個(gè)參數(shù)量較形值（弱小的）的學(xué)生模型，
（2）讓老師模型在目標(biāo)數(shù)據(jù)集上訓(xùn)練到最佳佛吓，
（3）將目標(biāo)數(shù)據(jù)的label替換成老師模型最后一個(gè)全連接層的輸出宵晚，讓學(xué)生模型學(xué)習(xí)老師模型的輸出，希望學(xué)生模型的輸出和老師模型輸出之間的交叉熵越小越好维雇。

了解到知識(shí)蒸餾的具體步驟之后淤刃，我們采用keras在mnist數(shù)據(jù)集上進(jìn)行一次簡(jiǎn)單的實(shí)驗(yàn)。

知識(shí)蒸餾實(shí)戰(zhàn)

導(dǎo)入一下必要的python 包吱型，同時(shí)載入數(shù)據(jù)钝凶。

from keras.datasets import mnist
from keras.layers import *
from keras import Model
from sklearn.metrics import accuracy_score
import numpy as np
(data_train,label_train),(data_test,label_test )= mnist.load_data()
data_train = np.expand_dims(data_train,axis=3)
data_test = np.expand_dims(data_test,axis=3)

定義老師模型和學(xué)生模型

在下方代碼中，筆者定義了一個(gè)包含3層卷積層的CNN模型作為老師模型（參數(shù)量6萬(wàn)）唁影，定義了一個(gè)包含512個(gè)神經(jīng)元的全連接層作為學(xué)生模型（參數(shù)量4萬(wàn)耕陷，比老師模型少了2萬(wàn)）。

#####定義老師模型——包含三層卷積層的CNN模型
def teacher_model():
    input_ = Input(shape=(28,28,1))
    x = Conv2D(32,(3,3),padding = "same")(input_)
    x = Activation("relu")(x)
    print(x)
    x = MaxPool2D((2,2))(x)
    x = Conv2D(64,(3,3),padding= "same")(x)
    x = Activation("relu")(x)
    x = MaxPool2D((2,2))(x)
    x = Conv2D(64,(3,3),padding= "same")(x)
    x = Activation("relu")(x)
    x = MaxPool2D((2,2))(x)
    x = Flatten()(x)
    out = Dense(10,activation = "softmax")(x)
    model = Model(inputs=input_,outputs=out)
    model.compile(loss="sparse_categorical_crossentropy",
                 optimizer="adam",
                 metrics=["accuracy"])
    model.summary()
    return model

###定義學(xué)生模型——— 一層含512個(gè)神經(jīng)元的全連接層
def student_model():
    input_ = Input(shape=(28,28,1))
    x = Flatten()(input_)
    x = Dense(512,activation="sigmoid")(x)
    out = Dense(10,activation = "softmax")(x)
    model = Model(inputs=input_,outputs=out)
    model.compile(loss="sparse_categorical_crossentropy",
                 optimizer="adam",
                 metrics=["accuracy"])
    model.summary()
    return model

訓(xùn)練老師模型

接下來(lái)開(kāi)始訓(xùn)練老師模型据沈，由于mnist數(shù)據(jù)集較為簡(jiǎn)單哟沫，在三層的CNN模型上，我設(shè)定只訓(xùn)練2個(gè)epoch锌介。這里需要注意的是嗜诀，如下圖所示：三層卷積的CNN的有6萬(wàn)多個(gè)參數(shù)。

t_model  = teacher_model()
t_model.fit(data_train,label_train,batch_size=64,epochs=2,validation_data=(data_test,label_test))

teacher model

訓(xùn)練結(jié)果如下圖所示：兩個(gè)epoch孔祸，CNN模型就在測(cè)試集上做到了98%的準(zhǔn)確性隆敢。

teacher result

訓(xùn)練學(xué)生模型

在512個(gè)神經(jīng)元的全連接層上訓(xùn)練mnist數(shù)據(jù)集，學(xué)生模型的參數(shù)量如下圖所示：參數(shù)量只有4萬(wàn)個(gè)崔慧，參數(shù)量比老師模型少了2萬(wàn)個(gè)

s_model = student_model()
s_model.fit(data_train,label_train,batch_size=64,epochs=10,validation_data=(data_test,label_test))

student model

在學(xué)生模型上訓(xùn)練了10個(gè)epoch之后拂蝎，測(cè)試機(jī)準(zhǔn)確率最高也才達(dá)到0.9460，遠(yuǎn)低于CNN老師模型的0.98

student result

老師模型教學(xué)生模型

最后我們用老師模型教學(xué)生模型惶室，進(jìn)行知識(shí)蒸餾温自。
首先我們采用下方代碼將目標(biāo)數(shù)據(jù)集的label替換成老師模型的輸出。

t_out = t_model.predict(data_train)

然后用學(xué)生模型去學(xué)習(xí)老師模型的輸出皇钞。

def teach_student(teacher_out, student_model,data_train,data_test,label_test):
    t_out = teacher_out

    s_model = student_model
    for l in s_model.layers:
        l.trainable = True     
    
    label_test = keras.utils.to_categorical(label_test)
    
    model = Model(s_model.input,s_model.output)
    model.compile(loss="categorical_crossentropy",
                 optimizer="adam")
    model.fit(data_train,t_out,batch_size= 64,epochs = 5)
    
    s_predict = np.argmax(model.predict(data_test),axis=1)
    s_label =  np.argmax(label_test,axis=1)
    print(accuracy_score(s_predict,s_label))

最終得到的實(shí)驗(yàn)結(jié)果如下圖所示：學(xué)生模型的性能提升到了0.9511悼泌，相比于學(xué)生模型在目標(biāo)數(shù)據(jù)集上的最好成績(jī)0.9460提升了千分之6個(gè)點(diǎn)。這也證明我們知識(shí)蒸餾確實(shí)起作用了夹界。

result of student model after being taught

結(jié)語(yǔ)

當(dāng)然我們也發(fā)現(xiàn)馆里，我們的實(shí)驗(yàn)提升的幅度并不大，離老師模型的準(zhǔn)確度還有巨大的差距，而要想優(yōu)化知識(shí)蒸餾的性能鸠踪，我們可以采取升溫技術(shù)以舒，升溫技術(shù)的原理圖如下圖所示：將老師模型的輸出在softmax激活函數(shù)之前初上一個(gè)數(shù)值大于1的數(shù)字T，這樣會(huì)使得老師模型輸出的個(gè)類別概率值變得較為接近慢哈。

升溫技術(shù)

確實(shí)升溫技術(shù)的主要目的就是將老師模型輸出的各類型的概率，變得較為接近永票，這樣老師模型的輸出信息將變得更加豐富卵贱，得學(xué)生模型學(xué)會(huì)分辨出個(gè)類別之間細(xì)微的區(qū)別。當(dāng)然知識(shí)蒸餾的優(yōu)化方法并不只上述的升溫技術(shù)這一種侣集，這里筆者只是拋磚引玉键俱，知識(shí)蒸餾還有更多的奧秘等著大家去探索，去學(xué)習(xí)世分。希望讀者能夠有所收獲的同時(shí)编振，心中的好奇心也能夠被激發(fā)，主動(dòng)的學(xué)習(xí)知識(shí)蒸餾這門技術(shù)臭埋。

參考

https://arxiv.org/pdf/1503.02531.pdf
https://github.com/johnkorn/distillation
https://www.bilibili.com/video/av46561029/?p=54

最后編輯于：2019.08.17 13:07:26

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末踪央，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子瓢阴，更是在濱河造成了極大的恐慌畅蹂，老刑警劉巖，帶你破解...
沈念sama閱讀 218,755評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件荣恐，死亡現(xiàn)場(chǎng)離奇詭異液斜，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)叠穆，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,305評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門少漆，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人硼被，你說(shuō)我怎么就攤上這事示损。” “怎么了嚷硫？”我有些...
開(kāi)封第一講書(shū)人閱讀 165,138評(píng)論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵屎媳，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我论巍，道長(zhǎng)烛谊，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,791評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任嘉汰，我火速辦了婚禮丹禀，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己双泪，他們只是感情好持搜，可當(dāng)我...
茶點(diǎn)故事閱讀 67,794評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著焙矛，像睡著了一般葫盼。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上村斟，一...
開(kāi)封第一講書(shū)人閱讀 51,631評(píng)論 1贊 305
城市分裂傳說(shuō)
那天贫导，我揣著相機(jī)與錄音，去河邊找鬼蟆盹。笑死孩灯，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的逾滥。我是一名探鬼主播峰档，決...
沈念sama閱讀 40,362評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼寨昙！你這毒婦竟也來(lái)了讥巡？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 39,264評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤舔哪，失蹤者是張志新（化名）和其女友劉穎尚卫，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體尸红，經(jīng)...
沈念sama閱讀 45,724評(píng)論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡吱涉，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,900評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了外里。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片怎爵。...
茶點(diǎn)故事閱讀 40,040評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖盅蝗，靈堂內(nèi)的尸體忽然破棺而出鳖链，到底是詐尸還是另有隱情，我是刑警寧澤墩莫，帶...
沈念sama閱讀 35,742評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布芙委，位于F島的核電站，受9級(jí)特大地震影響狂秦，放射性物質(zhì)發(fā)生泄漏灌侣。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,364評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一裂问、第九天我趴在偏房一處隱蔽的房頂上張望侧啼。院中可真熱鬧牛柒，春花似錦、人聲如沸痊乾。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,944評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)哪审。三九已至蛾魄，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間湿滓，已是汗流浹背滴须。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,060評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工怎茫，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留绢彤，地道東北人削解。一個(gè)月前我還...
沈念sama閱讀 48,247評(píng)論 3贊 371
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像而线，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子恋日，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,979評(píng)論 2贊 355

知識(shí)蒸餾（Knowledge Distilling）以蕴，讓你的模型輕裝上陣——keras 實(shí)戰(zhàn)

知識(shí)蒸餾（Knowledge Distilling），讓你的模型輕裝上陣——keras 實(shí)戰(zhàn)