softmax函數(shù)的求導(dǎo)過程闲孤,https://deepnotes.io/softmax-crossentropy坪它。
對(duì)分子分母都乘以一個(gè)常數(shù)C,可防止指數(shù)次方的數(shù)溢出茉唉,很容易溢出蚯舱,比如800的e次方就溢出了肠缨。logC = -max(X),新的X = X - Max(X)潜沦。
This property of softmax function that it outputs a probability distribution makes it suitable for probabilistic interpretation in classification tasks.
這篇文章對(duì)softmax的求導(dǎo)描述的再精確不過了抹竹,建議先從cross entropy作為損失函數(shù)看起,為什么使用cross entropy作為損失函數(shù)止潮?他寫的多清楚啊,牛逼钞楼。當(dāng)輸出為概率分布時(shí)喇闸,cross entropy就是用來估計(jì)兩個(gè)概率分布之間的距離的。距離越小越好询件,損失函數(shù)越小越好燃乍,梯度下降求極小值。
當(dāng)問題是二分類時(shí)宛琅,我們使用sigmoid函數(shù)作為activation刻蟹,則cross entropy簡(jiǎn)化成只有兩項(xiàng),當(dāng)多分類時(shí)嘿辟,yi pi都為向量舆瘪。對(duì)其求導(dǎo)均為dc/dz = zi - yi。這是對(duì)一個(gè)輸入來說的红伦,對(duì)于多個(gè)輸入example比如m個(gè),?dc/dz =1/m* sum( zi - yi )英古,我個(gè)人理解這是用了統(tǒng)計(jì)學(xué)的求平均值。昙读。