歸一化(softmax)桐臊、信息熵胎撤、交叉熵
機(jī)器學(xué)習(xí)中經(jīng)常遇到這幾個(gè)概念,用大白話解釋一下:
一断凶、歸一化
把幾個(gè)數(shù)量級不同的數(shù)據(jù)伤提,放在一起比較(或者畫在一個(gè)數(shù)軸上),比如:一條河的長度幾千甚至上萬km认烁,與一個(gè)人的高度1.7m肿男,放在一起,人的高度幾乎可以被忽略却嗡,所以為了方便比較舶沛,縮小他們的差距,但又能看出二者的大小關(guān)系稽穆,可以找一個(gè)方法進(jìn)行轉(zhuǎn)換冠王。
另外,在多分類預(yù)測時(shí)舌镶,比如:一張圖柱彻,要預(yù)測它是貓,或是狗餐胀,或是人哟楷,或是其它什么,每個(gè)分類都有一個(gè)預(yù)測的概率否灾,比如是貓的概率是0.7卖擅,狗的概率是0.1,人的概率是0.2... , 概率通常是0到1之間的數(shù)字墨技,如果我們算出的結(jié)果惩阶,不在這個(gè)范圍,比如:700扣汪,10断楷,2 ,甚至負(fù)數(shù)崭别,這樣就需要找個(gè)方法冬筒,將其轉(zhuǎn)換成0-1之間的概率小數(shù),而且通常為了滿足統(tǒng)計(jì)分布茅主,這些概率的和舞痰,應(yīng)該是1。
最常用的處理方法诀姚,就是softmax响牛,原理如上圖(網(wǎng)上淘來的)。
類似的softmax(1)=0.12,softmax(-3)=0娃善,這個(gè)方法在數(shù)學(xué)上沒毛病论衍,但是在實(shí)際運(yùn)用中,如果目標(biāo)值x很大聚磺,比如10000,那e的10000次方炬丸,很可能超出編程語言的表示范圍瘫寝,所以通常做softmax前,要對數(shù)據(jù)做一下預(yù)處理(比如:對于分類預(yù)測稠炬,最簡單的辦法焕阿,所有訓(xùn)練集整體按比例縮小)
二首启、信息熵
熱力學(xué)中的熱熵是表示分子狀態(tài)混亂程度的物理量暮屡,而且還有一個(gè)所謂『熵增原理』,即:宇宙中的熵總是增加的毅桃,換句話說褒纲,分子狀態(tài)總是從有序變成無序,熱量總是從高溫部分向低溫部分傳遞钥飞。 香農(nóng)借用了這個(gè)概念莺掠,用信息熵來描述信源的不確定度。
簡單點(diǎn)說读宙,一個(gè)信息源越不確定彻秆,里面蘊(yùn)含的信息量越大。舉個(gè)例子:吳京《戰(zhàn)狼2》大獲成功后结闸,說要續(xù)拍《戰(zhàn)狼3》唇兑,但是沒說誰當(dāng)女主角,于是就有各種猜測桦锄,各種可能性扎附,即:信息量很大。但是沒過多久察纯,吳京宣布女主角確定后帕棉,大家就不用再猜測女主角了,信息量相比就沒這么大了饼记。
這個(gè)例子中香伴,每種猜測的可能性其實(shí)就是概率,而信息量如何衡量具则,可以用下面的公式來量化計(jì)算即纲,算出來的值即信息熵:
這里p為概率,最后算出來的結(jié)果通常以bit為單位博肋。
舉例:拿計(jì)算機(jī)領(lǐng)域最车驼現(xiàn)的編碼問題來說蜂厅,如果有A、B膊畴、C掘猿、D這四個(gè)字符組成的內(nèi)容,每個(gè)字符出現(xiàn)的概率都是1/4唇跨,即概率分布為{1/4稠通,1/4,1/4买猖,1/4}改橘,設(shè)計(jì)一個(gè)最短的編碼方案來表示一組數(shù)據(jù),套用剛才的公式:
即:2個(gè)bit玉控,其實(shí)不用算也能想明白飞主,如果第1位0表示A,1表示B高诺;第2位0表示C碌识,1表示D,2位編碼搞定懒叛。
如果概率變了丸冕,比如A、B薛窥、C胖烛、D出現(xiàn)的概率是{1,1诅迷,1/2佩番,1/2},即:每次A罢杉、B必然出現(xiàn)趟畏,C、D出現(xiàn)機(jī)會各占一半滩租,這樣只要1位就可以了赋秀。1表示C,0表示D律想,因?yàn)锳B必然出現(xiàn)猎莲,不用表示都知道肯定要附加上AB,套用公式算出來的結(jié)果也是如此技即。
三著洼、交叉熵
這是公式定義,x、y都是表示概率分布(注:也有很多文章喜歡用p身笤、q來表示)豹悬,這個(gè)東西能干嘛呢?
假設(shè)x是正確的概率分布液荸,而y是我們預(yù)測出來的概率分布瞻佛,這個(gè)公式算出來的結(jié)果,表示y與正確答案x之間的錯(cuò)誤程度(即:y錯(cuò)得有多離譜)莹弊,結(jié)果值越小涤久,表示y越準(zhǔn)確,與x越接近忍弛。
比如:
x的概率分布為:{1/4 ,1/4考抄,1/4细疚,1/4},現(xiàn)在我們通過機(jī)器學(xué)習(xí)川梅,預(yù)測出來二組值:
y1的概率分布為 {1/4 , 1/2 , 1/8 , 1/8}
y2的概率分布為 {1/4 , 1/4 , 1/8 , 3/8}
從直覺上看疯兼,y2分布中,前2項(xiàng)都100%預(yù)測對了贫途,而y1只有第1項(xiàng)100%對吧彪,所以y2感覺更準(zhǔn)確,看看公式算下來丢早,是不是符合直覺:
對比結(jié)果姨裸,H(x,y1)算出來的值為9/4,而H(x,y2)的值略小于9/4怨酝,根據(jù)剛才的解釋傀缩,交叉熵越小,表示這二個(gè)分布越接近农猬,所以機(jī)器學(xué)習(xí)中赡艰,經(jīng)常拿交叉熵來做為損失函數(shù)(loss function)。