1. SoftMax原理
一個(gè)神經(jīng)網(wǎng)絡(luò)輸入數(shù)據(jù)后轧铁,一般最后一層會(huì)輸出一個(gè)連續(xù)的值,為了實(shí)現(xiàn)分類泣矛,假設(shè)總共有n類疲眷,我們可以定義網(wǎng)絡(luò)的輸出包含n個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)代表一個(gè)輸出乳蓄,誰的輸出值最高咪橙,那么就認(rèn)為輸入的數(shù)據(jù)屬于哪一類。
然而這顯然引入了一個(gè)問題:一方面虚倒,由于輸出層的輸出值的范圍不確定美侦,我們難以直觀上判斷這些值的意義。另一方面魂奥,由于真實(shí)標(biāo)簽是離散值菠剩,這些離散值與不確定范圍的輸出值之間的誤差難以衡量。
例如耻煤,假設(shè)有3類具壮,A,B和C類哈蝇,其中最后一層輸出了0.1棺妓,10,0.5炮赦,那么此時(shí)可以分為B類怜跑,但是也可能輸出100,10,80性芬,此時(shí)又認(rèn)為應(yīng)該屬于A峡眶,但是他們之間的絕對(duì)值的差可能很大,這不利于構(gòu)建loss植锉,換而言之辫樱,如果某一類代表的輸出先天性的大于其他,那么在收斂時(shí)俊庇,這一類可能會(huì)影響其他結(jié)果的分類效果狮暑。
1.1.歸一化思想
容易想到,解決上述問題的方法可以是歸一化暇赤,即再構(gòu)建一層運(yùn)算心例,或設(shè)置一種loss,使得最終輸出的結(jié)果為“預(yù)測為屬于該類的概率”鞋囊,自然的止后,所有類的概率的和應(yīng)該等于1。
認(rèn)為Yi的概率為:
1.2. 利用信息熵