在深度學習中宙帝,softmax層一般作為輸出層出現(xiàn)步脓,也就是網(wǎng)絡的最后一層浩螺;測試過程中要出,這一層直接輸出網(wǎng)絡的最終結(jié)果患蹂,而在訓練過程這一層又會作為誤差反傳的第一層传于,也就是計算誤差的第一層。
下面我們就來推導一下:
假設softmax層有K個神經(jīng)元(也可以理解為K個輸出)
其中
首先我們先計算softmax的輸出對輸入
的偏導:
這里有兩個情況需要分別處理(1),(2)
當時:
當時:
有了這兩個公式就可以計算出對應梯度弹惦。
假設模型損失的值為