歸一化(softmax)、信息熵却紧、交叉熵

歸一化(softmax)桐臊、信息熵胎撤、交叉熵

機(jī)器學(xué)習(xí)中經(jīng)常遇到這幾個(gè)概念,用大白話解釋一下:

一断凶、歸一化

把幾個(gè)數(shù)量級不同的數(shù)據(jù)伤提,放在一起比較(或者畫在一個(gè)數(shù)軸上),比如:一條河的長度幾千甚至上萬km认烁,與一個(gè)人的高度1.7m肿男,放在一起,人的高度幾乎可以被忽略却嗡,所以為了方便比較舶沛,縮小他們的差距,但又能看出二者的大小關(guān)系稽穆,可以找一個(gè)方法進(jìn)行轉(zhuǎn)換冠王。

另外,在多分類預(yù)測時(shí)舌镶,比如:一張圖柱彻,要預(yù)測它是貓,或是狗餐胀,或是人哟楷,或是其它什么,每個(gè)分類都有一個(gè)預(yù)測的概率否灾,比如是貓的概率是0.7卖擅,狗的概率是0.1,人的概率是0.2... , 概率通常是0到1之間的數(shù)字墨技,如果我們算出的結(jié)果惩阶,不在這個(gè)范圍,比如:700扣汪,10断楷,2 ,甚至負(fù)數(shù)崭别,這樣就需要找個(gè)方法冬筒,將其轉(zhuǎn)換成0-1之間的概率小數(shù),而且通常為了滿足統(tǒng)計(jì)分布茅主,這些概率的和舞痰,應(yīng)該是1。

image

最常用的處理方法诀姚,就是softmax响牛,原理如上圖(網(wǎng)上淘來的)。

點(diǎn)擊看原圖

類似的softmax(1)=0.12,softmax(-3)=0娃善,這個(gè)方法在數(shù)學(xué)上沒毛病论衍,但是在實(shí)際運(yùn)用中,如果目標(biāo)值x很大聚磺,比如10000,那e的10000次方炬丸,很可能超出編程語言的表示范圍瘫寝,所以通常做softmax前,要對數(shù)據(jù)做一下預(yù)處理(比如:對于分類預(yù)測稠炬,最簡單的辦法焕阿,所有訓(xùn)練集整體按比例縮小)

二首启、信息熵

熱力學(xué)中的熱熵是表示分子狀態(tài)混亂程度的物理量暮屡,而且還有一個(gè)所謂『熵增原理』,即:宇宙中的熵總是增加的毅桃,換句話說褒纲,分子狀態(tài)總是從有序變成無序,熱量總是從高溫部分向低溫部分傳遞钥飞。 香農(nóng)借用了這個(gè)概念莺掠,用信息熵來描述信源的不確定度。

簡單點(diǎn)說读宙,一個(gè)信息源越不確定彻秆,里面蘊(yùn)含的信息量越大。舉個(gè)例子:吳京《戰(zhàn)狼2》大獲成功后结闸,說要續(xù)拍《戰(zhàn)狼3》唇兑,但是沒說誰當(dāng)女主角,于是就有各種猜測桦锄,各種可能性扎附,即:信息量很大。但是沒過多久察纯,吳京宣布女主角確定后帕棉,大家就不用再猜測女主角了,信息量相比就沒這么大了饼记。

這個(gè)例子中香伴,每種猜測的可能性其實(shí)就是概率,而信息量如何衡量具则,可以用下面的公式來量化計(jì)算即纲,算出來的值即信息熵:

image

這里p為概率,最后算出來的結(jié)果通常以bit為單位博肋。

舉例:拿計(jì)算機(jī)領(lǐng)域最车驼現(xiàn)的編碼問題來說蜂厅,如果有A、B膊畴、C掘猿、D這四個(gè)字符組成的內(nèi)容,每個(gè)字符出現(xiàn)的概率都是1/4唇跨,即概率分布為{1/4稠通,1/4,1/4买猖,1/4}改橘,設(shè)計(jì)一個(gè)最短的編碼方案來表示一組數(shù)據(jù),套用剛才的公式:

image

即:2個(gè)bit玉控,其實(shí)不用算也能想明白飞主,如果第1位0表示A,1表示B高诺;第2位0表示C碌识,1表示D,2位編碼搞定懒叛。

如果概率變了丸冕,比如A、B薛窥、C胖烛、D出現(xiàn)的概率是{1,1诅迷,1/2佩番,1/2},即:每次A罢杉、B必然出現(xiàn)趟畏,C、D出現(xiàn)機(jī)會各占一半滩租,這樣只要1位就可以了赋秀。1表示C,0表示D律想,因?yàn)锳B必然出現(xiàn)猎莲,不用表示都知道肯定要附加上AB,套用公式算出來的結(jié)果也是如此技即。

image

三著洼、交叉熵

image

這是公式定義,x、y都是表示概率分布(注:也有很多文章喜歡用p身笤、q來表示)豹悬,這個(gè)東西能干嘛呢?

假設(shè)x是正確的概率分布液荸,而y是我們預(yù)測出來的概率分布瞻佛,這個(gè)公式算出來的結(jié)果,表示y與正確答案x之間的錯(cuò)誤程度(即:y錯(cuò)得有多離譜)莹弊,結(jié)果值越小涤久,表示y越準(zhǔn)確,與x越接近忍弛。

比如:

x的概率分布為:{1/4 ,1/4考抄,1/4细疚,1/4},現(xiàn)在我們通過機(jī)器學(xué)習(xí)川梅,預(yù)測出來二組值:

y1的概率分布為 {1/4 , 1/2 , 1/8 , 1/8}

y2的概率分布為 {1/4 , 1/4 , 1/8 , 3/8}

從直覺上看疯兼,y2分布中,前2項(xiàng)都100%預(yù)測對了贫途,而y1只有第1項(xiàng)100%對吧彪,所以y2感覺更準(zhǔn)確,看看公式算下來丢早,是不是符合直覺:

image
image

對比結(jié)果姨裸,H(x,y1)算出來的值為9/4,而H(x,y2)的值略小于9/4怨酝,根據(jù)剛才的解釋傀缩,交叉熵越小,表示這二個(gè)分布越接近农猬,所以機(jī)器學(xué)習(xí)中赡艰,經(jīng)常拿交叉熵來做為損失函數(shù)(loss function)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末斤葱,一起剝皮案震驚了整個(gè)濱河市慷垮,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌揍堕,老刑警劉巖料身,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異鹤啡,居然都是意外死亡惯驼,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來祟牲,“玉大人隙畜,你說我怎么就攤上這事∷当矗” “怎么了议惰?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長乡恕。 經(jīng)常有香客問我言询,道長,這世上最難降的妖魔是什么傲宜? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任运杭,我火速辦了婚禮,結(jié)果婚禮上函卒,老公的妹妹穿的比我還像新娘辆憔。我一直安慰自己,他們只是感情好报嵌,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布虱咧。 她就那樣靜靜地躺著,像睡著了一般锚国。 火紅的嫁衣襯著肌膚如雪腕巡。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天血筑,我揣著相機(jī)與錄音绘沉,去河邊找鬼。 笑死云挟,一個(gè)胖子當(dāng)著我的面吹牛梆砸,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播园欣,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼帖世,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了沸枯?” 一聲冷哼從身側(cè)響起日矫,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎绑榴,沒想到半個(gè)月后哪轿,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡翔怎,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年窃诉,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了杨耙。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,117評論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡飘痛,死狀恐怖珊膜,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情宣脉,我是刑警寧澤车柠,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站塑猖,受9級特大地震影響竹祷,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜羊苟,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一塑陵、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蜡励,春花似錦猿妈、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽鳍刷。三九已至占遥,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間输瓜,已是汗流浹背瓦胎。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留尤揣,地道東北人搔啊。 一個(gè)月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像北戏,于是被迫代替她去往敵國和親负芋。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評論 2 345