Given an image of a
dog
, a good teacher network may mistakenly recognize it ascat
with small probability, but should seldom recognize it ascar
.
在論文中有寫過這樣一段話語,相對于狗和汽車來說,狗和貓的相似性更大蛤袒,這里就潛藏著更多的信息葫掉。而這種相似性,會在probability中有所體現(xiàn)。而這部分信息一直在網(wǎng)絡訓練過程中沒有被很好的利用,所以稱之為 dark knowledge
。
貓和狗之間就要比貓和汽車之間更為相似菲语,這在大型網(wǎng)絡輸出的概率值上是可以反映出來的。
Teacher Network 在訓練的時候是通過 0-1 編碼來訓練惑灵,其真實標簽狗山上,貓,汽車[1, 0, 0]泣棋,最后一層往往使用Softmax來產(chǎn)生概率分布胶哲,所以這個概率分布其實是一個比原來的 0-1 編碼硬 label (hard target) 更軟的軟 label (soft target)。這個分布是由很多(0,1)之間的數(shù)值組成的潭辈。同一個樣本鸯屿,用在 Teacher Network 上產(chǎn)生的 soft target來訓練一個 Student Network 時,因為并不是直接標注的 hard target把敢,所以學習起來會更快收斂寄摆。
再次把知識蒸餾的流程圖拿出來, softmax(T):
在Student Network時,其損失函數(shù)是由兩部分組成 :soft
和 hard
修赞。
注意:studentNet模型在做預測時蒸餾溫度要還原為1婶恼,也就是用原始概率分布做預測,因為再預測時希望正確標簽與錯誤標簽的概率差距盡量大,與蒸餾時的希望平緩區(qū)別開來桑阶。關于α , β ,Hinton的論文中對兩個loss用了加權平均:β = 1 - α勾邦。他們實驗發(fā)現(xiàn)蚣录,在普通情況下 α 相對于 β 非常小的情況下能得到最好的效果。
運用這種思維眷篇,除了在網(wǎng)絡模型壓縮上萎河,其中在網(wǎng)絡的相互學習以及對抗神經(jīng)網(wǎng)絡上都有著相似的理論基礎。