有兩點(diǎn)原因涛贯。
softmax的形式為:
P(y=i)=\frac{exp(\Sigma_dw_{id}x_d)}{\Sigma_jexp(\Sigma_dw_{jd}x_d)}
原因之一在于softmax設(shè)計(jì)的初衷本谜,是希望特征對(duì)概率的影響是乘性的。
原因之二在于疙咸,多類分類問(wèn)題的目標(biāo)函數(shù)常常選為cross-entropy,即L=-\Sigma_kt_klogP(y=k),其中目標(biāo)類的t_k等于1做院,其它類的t_k等于0嘹裂。
在神經(jīng)網(wǎng)絡(luò)模型(最簡(jiǎn)單的logistic regression也可看成沒(méi)有隱含層的神經(jīng)網(wǎng)絡(luò))中妄壶,輸出層第i個(gè)神經(jīng)元的輸入為a_i=\Sigma_dw_{id}x_d。
神經(jīng)網(wǎng)絡(luò)是用error back-propagation訓(xùn)練的寄狼,這個(gè)過(guò)程中有一個(gè)關(guān)鍵的量是\vartheta L/\vartheta a_i丁寄。
可以算出,同時(shí)使用softmax和cross-entropy時(shí)泊愧,\vartheta L/\vartheta a_i = P(y=i)-t_i伊磺。
這個(gè)形式非常簡(jiǎn)潔,而且與線性回歸(采用最小均方誤差目標(biāo)函數(shù))删咱、兩類分類(采用cross-entropy目標(biāo)函數(shù))時(shí)的形式一致屑埋。
具體公式推導(dǎo):http://blog.csdn.net/jerr__y/article/details/71215590