從信息論的角度談機(jī)器學(xué)習(xí)

本文先介紹下信息的本質(zhì)是什么,再介紹下機(jī)器學(xué)習(xí)的本質(zhì)是什么
接著介紹下機(jī)器學(xué)習(xí)的流程跷车,以及其中的信息論原理。

信息是什么朽缴?

信息是消除不確定性的東西。
其中信息量是信息消除消除不確定性的度量密强。
-- 香農(nóng)

舉例1:世界杯比賽

信息冗余度

信息冗余度 是指一定數(shù)量的信號(hào)單元可能有的最大信息量與其包含的實(shí)際信息量之差

信息冗余度的作用是什么茅郎?舉例:聊天中的比如,書(shū)中的有用的廢話或渤,
反例:栗子怎么賣系冗?答:3斤5元; 如果回答 薪鹦,如果買(mǎi)3斤掌敬,那么就5元一斤;或者 買(mǎi)3斤一共5元池磁,就清晰很多

信息的正交性

信噪比

噪聲
定義沒(méi)找到

信噪比

有噪聲環(huán)境下的極限信息傳輸速率C(信道容量)可表達(dá)為

香農(nóng)公式
C=Wlog_{2}(1+S/N)b/s

W為信道的帶寬(以Hz為單位)奔害;

S/N為信道內(nèi)信號(hào)和噪聲的功率之比;

信息在傳播過(guò)程中框仔,噪聲是普遍存在的舀武,并且往往都隨機(jī)的
任何在獲取信息的過(guò)程都需要消除噪聲。

舉例2:一些人的演講离斩,你覺(jué)得廢話很多银舱,為什么?
知識(shí)點(diǎn)】:越是大家知道的問(wèn)題或者答案跛梗,越?jīng)]有信息量寻馏,越是白噪聲,因?yàn)樗鼪](méi)有消除任務(wù)不確定性核偿。

信息傳播

信道的大小诚欠,決定了通信的效率。

思考:人與人的交流漾岳,涉及到信道的帶寬(受到互信息的影響)轰绵,A發(fā)送消息給B時(shí),需要考慮尼荆,A=>B的帶寬的大小左腔,比如PPT匯報(bào)時(shí),可以增加冗余度(交叉信息)捅儒、降低速率等方式液样,提升信息交流的效果振亮。


信息熵

E9D472C4-EFC9-431A-8AAC-DF872474A63D.png

其中,不確定性函數(shù) f(x) = -log p(x) 坊秸,概率越小褒搔,不確定性越大

信息熵 是不確定函數(shù)的數(shù)學(xué)期望站超,代表了某個(gè)事件的統(tǒng)計(jì)信息量。

信息論之父克勞德·香農(nóng)給出的信息熵的三個(gè)性質(zhì)[1]:

  • 單調(diào)性咬像,發(fā)生概率越高的事件县昂,其攜帶的信息量越低倒彰;
  • 非負(fù)性待讳,信息熵可以看作為一種廣度量创淡,非負(fù)性是一種合理的必然琳彩;
  • 累加性部凑,即多隨機(jī)事件同時(shí)發(fā)生存在的總不確定性的量度是可以表示為各事件不確定性的量度的和涂邀,這也是廣度量的一種體現(xiàn)必孤。
    -- 香農(nóng)從數(shù)學(xué)上嚴(yán)格證明了滿足上述三個(gè)條件的隨機(jī)變量不確定性度量函數(shù)具有唯一形式

熵的定義公式中對(duì)數(shù)函數(shù)不局限于采用特定的底,不同的底對(duì)應(yīng)了熵的不同度量單位兴想。如果以 2 22 為底捞镰,熵的單位稱作比特 (bit)毙替,如果以自然對(duì)數(shù) e ee 為底厂画,熵的單位稱作納特 (nat)袱院。

從熵的定義中可以看出忽洛,熵是關(guān)于變量 X XX 概率分布的函數(shù)欲虚,而與 X XX 的取值沒(méi)有關(guān)系复哆,所以也可以將 X XX 的熵記作 H ( p ) H(p)H(p)

熵越大代表隨機(jī)變量的不確定性越大寂恬,當(dāng)變量可取值的種類一定時(shí)初肉,其取每種值的概率分布越平均牙咏,其熵值越大妄壶。熵的取值范圍為:

0 ≤ H ( p ) ≤ log ? ( n )
0≤H(p)≤log(n)

n 表示取值的種類丁寄。

image.png

互信息(信息增益):知道X盛正,給Y的信息量帶來(lái)多少損失。

兩個(gè)隨機(jī)事件的關(guān)系痰滋,在信息論里的表示敲街,(類比與概率論里有相關(guān)性系數(shù))


284163DA-FE7B-4303-A43B-3CF727FD0D32.png

這種看不出來(lái) 多艇,換一種表示墩蔓,

F6EAA80F-FD2C-4D01-BB71-DB6A198CBA2B.png

H(x) + H(y) - H((x,y))的數(shù)學(xué)期望

類比于概率和公式
P(x+y) = P(x) + P(y) - P(xy)

當(dāng)兩事件完全獨(dú)立時(shí),p ( x , y ) = p ( x ) ? p ( y ) 涮雷,互信息計(jì)算為 0 轻局,這也是與常識(shí)判斷相吻合的览爵。

交叉熵

考慮一種情況蜓竹,對(duì)于一個(gè)樣本集俱济,存在兩個(gè)概率分布 p ( x ) 和 q ( x ) 蛛碌,其中 p ( x ) 為真實(shí)分布蔚携,q ( x ) 為非真實(shí)分布酝蜒★跸酰基于真實(shí)分布 p ( x ) 我們可以計(jì)算這個(gè)樣本集的信息熵也就是編碼長(zhǎng)度的期望為:


0707BD11-8F63-4B56-B583-6CC6B57EA873.png

在信息論中奈偏,這個(gè)量指的是:用「錯(cuò)誤」的編碼方式 q(而不是 p)去編碼服從「正確」 分布q的事件惊来,所需要的 bit 數(shù)裁蚁。

回顧一下負(fù)對(duì)數(shù)項(xiàng)表征了所含的信息量枉证,如果我們用非真實(shí)分布 q ( x ) q(x)q(x) 來(lái)代表樣本集的信息量的話室谚,那么:

0707BD11-8F63-4B56-B583-6CC6B57EA873.png

因?yàn)槠渲斜硎拘畔⒘康捻?xiàng)來(lái)自于非真實(shí)分布 q ( x ) ,而對(duì)其期望值的計(jì)算采用的是真實(shí)分布 p ( x ) 憎瘸,所以稱其為交叉熵 (Cross Entropy)幌甘。

結(jié)論
交叉熵 >= 信息熵

從這個(gè)例子中饲做,我們可以看到交叉熵比原本真實(shí)的信息熵要大盆均。直觀來(lái)看泪姨,當(dāng)我們對(duì)分布估計(jì)不準(zhǔn)確時(shí)诀黍,總會(huì)引入額外的不必要信息期望(可以理解為引入了額外的偏差)眯勾,再加上原本真實(shí)的信息期望吃环,最終的信息期望值要比真實(shí)系統(tǒng)分布所需的信息期望值要大。

很多機(jī)器學(xué)習(xí)算法會(huì)使用

相對(duì)熵

相對(duì)熵 (Relative Entropy) 也稱 KL 散度好唯,設(shè) p ( x ) 骑篙、q ( x ) 是離散隨機(jī)變量 X XX 的兩個(gè)概率分布替蛉,則 p 對(duì) q 的相對(duì)熵為


DA0F5EB0-DC6F-47AC-BBE2-DE8C65408F06.png

相對(duì)熵既然是熵拄氯,也是滿足大于等于 0 的,證明如下:


4FA4CE9E-F7E8-4D45-BFEE-2B81ECF4C5EA.png

和信息熵的關(guān)系:


5820ECF1-832E-4E2A-B8DB-7CB0BD8C8EF2.png

KL散度大于0它浅,D
KL(p∥q)≥0译柏,所以 H ( p , q ) ≥ H ( p ) , H(p,q) - H(p)≥0
同時(shí),也更容易的看出來(lái)相對(duì)熵表示的其實(shí)是當(dāng)我們用一個(gè)非真實(shí)的分布表示系統(tǒng)時(shí)姐霍,其得到的信息量期望值相比采用真實(shí)分布表示時(shí)候多出的部分鄙麦。

在機(jī)器學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)的分布已經(jīng)固定下來(lái)镊折,那么真實(shí)分布的熵 H ( p ) 是一個(gè)定值胯府。最小化相對(duì)熵 KL (p∥q) 等價(jià)于最小化交叉熵 H ( p , q ) 。

JS散度

由于KL散度是非對(duì)稱的骂因,使用不夠方便俄烁,各種信息論大佬做了優(yōu)化,


8B1F2DAE-22BF-44D6-9944-CA68B9A9896F.png

這個(gè)也是GAN網(wǎng)絡(luò)使用的目標(biāo)函數(shù)

image.png

機(jī)器學(xué)習(xí)是什么?

機(jī)器學(xué)習(xí)是運(yùn)用大數(shù)據(jù)技術(shù)做統(tǒng)計(jì)分析帮辟,對(duì)外來(lái)做預(yù)測(cè)的系統(tǒng)性方法蔓榄。

機(jī)器學(xué)習(xí)的流程

定義問(wèn)題

  1. 確定樣本數(shù)據(jù)x [& y] 有沒(méi)有y 可分為監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)澜搅,目前大部分的算法都是監(jiān)督學(xué)習(xí)
  2. 確定目標(biāo) loss(x) = f(x)
    這里的f(x) 在分類問(wèn)題上一般引入的就是 交叉熵 或者 KL散度妨退,本質(zhì)上是用一個(gè)分布p(真實(shí)分布)和另一個(gè)分布q(樣本分布)的關(guān)系萍丐,來(lái)定義問(wèn)題拱层。
    交叉熵越小,p 和 q的分布越接近,越可以用f(q)代表f(p)
  3. 確定衡量標(biāo)準(zhǔn): 準(zhǔn)確率 召回率 F1-Score 等等

數(shù)據(jù)分組(for 監(jiān)督學(xué)習(xí))

分為訓(xùn)練集搏明、驗(yàn)證集、測(cè)試集
訓(xùn)練集(train set) —— 用于模型擬合的數(shù)據(jù)樣本(真實(shí)信息 + 噪聲)行您,我們要做的就是在有噪聲影響下笛质,獲取真實(shí)信息俊马。
驗(yàn)證集(validation set)—— 是模型訓(xùn)練過(guò)程中單獨(dú)留出的樣本集艘儒,它可以用于調(diào)整模型的超參數(shù)和用于對(duì)模型的能力進(jìn)行初步評(píng)估。 通常用來(lái)在模型迭代訓(xùn)練時(shí)疾牲,用以驗(yàn)證當(dāng)前模型泛化能力(準(zhǔn)確率暑椰,召回率等),以決定是否停止繼續(xù)訓(xùn)練婶溯。
本質(zhì)上是通過(guò)信息的冗余,或者正交信息來(lái)了解模型的正確性妓忍。
測(cè)試集 —— 用來(lái)評(píng)估模最終模型的泛化能力祖凫。但不能作為調(diào)參惠况、選擇特征等算法相關(guān)的選擇的依據(jù)煎谍。

為什么要把數(shù)據(jù)分那么多份漫雷?

訓(xùn)練

訓(xùn)練這個(gè)詞恍涂,其實(shí)可以說(shuō)成 擬合+調(diào)參+驗(yàn)證的過(guò)程

step 1: 擬合(減少偏差)
step 2: 泛化(減少方差)植榕,防止過(guò)擬合
step 3: 正則化

image.png

訓(xùn)練過(guò)程:


image.png

所有算法再沧,萬(wàn)變不離其中。

參考

鏈接1
鏈接2
鏈接3
鏈接4

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末尊残,一起剝皮案震驚了整個(gè)濱河市炒瘸,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌夜郁,老刑警劉巖什燕,帶你破解...
    沈念sama閱讀 217,084評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異竞端,居然都是意外死亡屎即,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,623評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)事富,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)技俐,“玉大人,你說(shuō)我怎么就攤上這事统台〉窭蓿” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,450評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵贱勃,是天一觀的道長(zhǎng)井赌。 經(jīng)常有香客問(wèn)我谤逼,道長(zhǎng),這世上最難降的妖魔是什么仇穗? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,322評(píng)論 1 293
  • 正文 為了忘掉前任流部,我火速辦了婚禮,結(jié)果婚禮上纹坐,老公的妹妹穿的比我還像新娘枝冀。我一直安慰自己,他們只是感情好耘子,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,370評(píng)論 6 390
  • 文/花漫 我一把揭開(kāi)白布果漾。 她就那樣靜靜地躺著,像睡著了一般谷誓。 火紅的嫁衣襯著肌膚如雪绒障。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,274評(píng)論 1 300
  • 那天片林,我揣著相機(jī)與錄音端盆,去河邊找鬼。 笑死费封,一個(gè)胖子當(dāng)著我的面吹牛焕妙,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播弓摘,決...
    沈念sama閱讀 40,126評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼焚鹊,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了韧献?” 一聲冷哼從身側(cè)響起末患,我...
    開(kāi)封第一講書(shū)人閱讀 38,980評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎锤窑,沒(méi)想到半個(gè)月后璧针,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,414評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡渊啰,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,599評(píng)論 3 334
  • 正文 我和宋清朗相戀三年探橱,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片绘证。...
    茶點(diǎn)故事閱讀 39,773評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡隧膏,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出嚷那,到底是詐尸還是另有隱情胞枕,我是刑警寧澤,帶...
    沈念sama閱讀 35,470評(píng)論 5 344
  • 正文 年R本政府宣布魏宽,位于F島的核電站腐泻,受9級(jí)特大地震影響决乎,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜贫悄,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,080評(píng)論 3 327
  • 文/蒙蒙 一瑞驱、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧窄坦,春花似錦、人聲如沸凳寺。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,713評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)肠缨。三九已至逆趋,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間晒奕,已是汗流浹背闻书。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,852評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留脑慧,地道東北人魄眉。 一個(gè)月前我還...
    沈念sama閱讀 47,865評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像闷袒,于是被迫代替她去往敵國(guó)和親坑律。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,689評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容