序
本次記錄內(nèi)容主要為softmax的推導(dǎo)僚碎,部分內(nèi)容有參考各網(wǎng)友文章
多分類(lèi)問(wèn)題
多分類(lèi)問(wèn)題符合多項(xiàng)式分布们镜,softmax是一種用于解決多分類(lèi)問(wèn)題的有效方法董朝。
softmax的推導(dǎo)思路為:
首先證明 多項(xiàng)分布屬于指數(shù)分布族凫岖,這樣就可以使用廣義線(xiàn)性模型來(lái)擬合這個(gè)多項(xiàng)分布,由廣義線(xiàn)性模型推導(dǎo)出的目標(biāo)函數(shù) h(x) 即為Softmax回歸的分類(lèi)模型。
證明多項(xiàng)式分布是指數(shù)分布族
(什么是指數(shù)分布族可參考我的另一篇 指數(shù)分布族函數(shù)與廣義線(xiàn)性模型)
多分類(lèi)模型的輸出是該樣本屬于k個(gè)類(lèi)別的概率屋剑,從這k個(gè)概率中我們選擇最優(yōu)的概率對(duì)應(yīng)的類(lèi)別,作為該樣本的預(yù)測(cè)類(lèi)別。
這k個(gè)概率用k個(gè)變量 Θ1…Θk 來(lái)表示钻心,這k個(gè)變量的和為1凄硼,即滿(mǎn)足:
Θk 可以用前k-1個(gè)變量來(lái)表示:
使用廣義線(xiàn)性模型擬合這個(gè)多分類(lèi)問(wèn)題,首先要驗(yàn)證這個(gè)多項(xiàng)分布是否符合一個(gè)指數(shù)分布族捷沸。定義T(y)為:
在這里摊沉,統(tǒng)計(jì)分量T(y)并沒(méi)有像之前那樣定義為T(mén)(y)=y,因?yàn)門(mén)(y)不是一個(gè)數(shù)值痒给,而是一個(gè)k-1維的向量说墨。下面使用 表示向量T(y)的第 i 個(gè)元素。
下面引入一個(gè)新的符號(hào):
如果括號(hào)內(nèi)為true則這個(gè)符號(hào)取1苍柏,反之取0尼斧,例如:
那么
也就是說(shuō),向量T(y)的第 i 個(gè)元素是否為1是由當(dāng)前y是否與 i 相等決定的试吁。
T(y)是一個(gè)類(lèi)似于onehot向量的東西棺棵,表示屬于k類(lèi)中的哪一個(gè),則相應(yīng)位置 i 會(huì)置為1熄捍。
那么可以得到:
多項(xiàng)式分布轉(zhuǎn)化為指數(shù)分布族表達(dá)式過(guò)程如下:
上面轉(zhuǎn)換過(guò)程中每一步的轉(zhuǎn)換依據(jù)如下:
以上推導(dǎo)證明了:多項(xiàng)分布表達(dá)式可以表示為指數(shù)分布族表達(dá)式的格式烛恤,所以它屬于指數(shù)分布族,那么就可以用廣義線(xiàn)性模型來(lái)擬合這個(gè)多項(xiàng)式分布模型余耽。
softmax推導(dǎo)
由η表達(dá)式可得:
轉(zhuǎn)載注明:http://www.reibang.com/p/5d5e3698f46f