本文先介紹下信息的本質(zhì)是什么,再介紹下機(jī)器學(xué)習(xí)的本質(zhì)是什么
接著介紹下機(jī)器學(xué)習(xí)的流程跷车,以及其中的信息論原理。
信息是什么朽缴?
信息是消除不確定性的東西。
其中信息量是信息消除消除不確定性的度量密强。
-- 香農(nóng)
舉例1:世界杯比賽
信息冗余度
信息冗余度 是指一定數(shù)量的信號(hào)單元可能有的最大信息量與其包含的實(shí)際信息量之差
信息冗余度的作用是什么茅郎?舉例:聊天中的比如,書(shū)中的有用的廢話或渤,
反例:栗子怎么賣系冗?答:3斤5元; 如果回答 薪鹦,如果買(mǎi)3斤掌敬,那么就5元一斤;或者 買(mǎi)3斤一共5元池磁,就清晰很多
信息的正交性
信噪比
噪聲
定義沒(méi)找到
信噪比
有噪聲環(huán)境下的極限信息傳輸速率C(信道容量)可表達(dá)為
W為信道的帶寬(以Hz為單位)奔害;
S/N為信道內(nèi)信號(hào)和噪聲的功率之比;
信息在傳播過(guò)程中框仔,噪聲是普遍存在的舀武,并且往往都隨機(jī)的
任何在獲取信息的過(guò)程都需要消除噪聲。
舉例2:一些人的演講离斩,你覺(jué)得廢話很多银舱,為什么?
【知識(shí)點(diǎn)】:越是大家知道的問(wèn)題或者答案跛梗,越?jīng)]有信息量寻馏,越是白噪聲,因?yàn)樗鼪](méi)有消除任務(wù)不確定性核偿。
信息傳播
信道的大小诚欠,決定了通信的效率。
思考:人與人的交流漾岳,涉及到信道的帶寬(受到互信息的影響)轰绵,A發(fā)送消息給B時(shí),需要考慮尼荆,A=>B的帶寬的大小左腔,比如PPT匯報(bào)時(shí),可以增加冗余度(交叉信息)捅儒、降低速率等方式液样,提升信息交流的效果振亮。
信息熵
其中,不確定性函數(shù) f(x) = -log p(x) 坊秸,概率越小褒搔,不確定性越大
信息熵 是不確定函數(shù)的數(shù)學(xué)期望站超,代表了某個(gè)事件的統(tǒng)計(jì)信息量。
信息論之父克勞德·香農(nóng)給出的信息熵的三個(gè)性質(zhì)[1]:
- 單調(diào)性咬像,發(fā)生概率越高的事件县昂,其攜帶的信息量越低倒彰;
- 非負(fù)性待讳,信息熵可以看作為一種廣度量创淡,非負(fù)性是一種合理的必然琳彩;
- 累加性部凑,即多隨機(jī)事件同時(shí)發(fā)生存在的總不確定性的量度是可以表示為各事件不確定性的量度的和涂邀,這也是廣度量的一種體現(xiàn)必孤。
-- 香農(nóng)從數(shù)學(xué)上嚴(yán)格證明了滿足上述三個(gè)條件的隨機(jī)變量不確定性度量函數(shù)具有唯一形式
熵的定義公式中對(duì)數(shù)函數(shù)不局限于采用特定的底,不同的底對(duì)應(yīng)了熵的不同度量單位兴想。如果以 2 22 為底捞镰,熵的單位稱作比特 (bit)毙替,如果以自然對(duì)數(shù) e ee 為底厂画,熵的單位稱作納特 (nat)袱院。
從熵的定義中可以看出忽洛,熵是關(guān)于變量 X XX 概率分布的函數(shù)欲虚,而與 X XX 的取值沒(méi)有關(guān)系复哆,所以也可以將 X XX 的熵記作 H ( p ) H(p)H(p)
熵越大代表隨機(jī)變量的不確定性越大寂恬,當(dāng)變量可取值的種類一定時(shí)初肉,其取每種值的概率分布越平均牙咏,其熵值越大妄壶。熵的取值范圍為:
0 ≤ H ( p ) ≤ log ? ( n )
0≤H(p)≤log(n)
n 表示取值的種類丁寄。
互信息(信息增益):知道X盛正,給Y的信息量帶來(lái)多少損失。
兩個(gè)隨機(jī)事件的關(guān)系痰滋,在信息論里的表示敲街,(類比與概率論里有相關(guān)性系數(shù))
這種看不出來(lái) 多艇,換一種表示墩蔓,
H(x) + H(y) - H((x,y))的數(shù)學(xué)期望
類比于概率和公式
P(x+y) = P(x) + P(y) - P(xy)
當(dāng)兩事件完全獨(dú)立時(shí),p ( x , y ) = p ( x ) ? p ( y ) 涮雷,互信息計(jì)算為 0 轻局,這也是與常識(shí)判斷相吻合的览爵。
交叉熵
考慮一種情況蜓竹,對(duì)于一個(gè)樣本集俱济,存在兩個(gè)概率分布 p ( x ) 和 q ( x ) 蛛碌,其中 p ( x ) 為真實(shí)分布蔚携,q ( x ) 為非真實(shí)分布酝蜒★跸酰基于真實(shí)分布 p ( x ) 我們可以計(jì)算這個(gè)樣本集的信息熵也就是編碼長(zhǎng)度的期望為:
在信息論中奈偏,這個(gè)量指的是:用「錯(cuò)誤」的編碼方式 q(而不是 p)去編碼服從「正確」 分布q的事件惊来,所需要的 bit 數(shù)裁蚁。
回顧一下負(fù)對(duì)數(shù)項(xiàng)表征了所含的信息量枉证,如果我們用非真實(shí)分布 q ( x ) q(x)q(x) 來(lái)代表樣本集的信息量的話室谚,那么:
因?yàn)槠渲斜硎拘畔⒘康捻?xiàng)來(lái)自于非真實(shí)分布 q ( x ) ,而對(duì)其期望值的計(jì)算采用的是真實(shí)分布 p ( x ) 憎瘸,所以稱其為交叉熵 (Cross Entropy)幌甘。
結(jié)論
交叉熵 >= 信息熵
從這個(gè)例子中饲做,我們可以看到交叉熵比原本真實(shí)的信息熵要大盆均。直觀來(lái)看泪姨,當(dāng)我們對(duì)分布估計(jì)不準(zhǔn)確時(shí)诀黍,總會(huì)引入額外的不必要信息期望(可以理解為引入了額外的偏差)眯勾,再加上原本真實(shí)的信息期望吃环,最終的信息期望值要比真實(shí)系統(tǒng)分布所需的信息期望值要大。
很多機(jī)器學(xué)習(xí)算法會(huì)使用
相對(duì)熵
相對(duì)熵 (Relative Entropy) 也稱 KL 散度好唯,設(shè) p ( x ) 骑篙、q ( x ) 是離散隨機(jī)變量 X XX 的兩個(gè)概率分布替蛉,則 p 對(duì) q 的相對(duì)熵為
相對(duì)熵既然是熵拄氯,也是滿足大于等于 0 的,證明如下:
和信息熵的關(guān)系:
KL散度大于0它浅,D
KL(p∥q)≥0译柏,所以 H ( p , q ) ≥ H ( p ) , H(p,q) - H(p)≥0
同時(shí),也更容易的看出來(lái)相對(duì)熵表示的其實(shí)是當(dāng)我們用一個(gè)非真實(shí)的分布表示系統(tǒng)時(shí)姐霍,其得到的信息量期望值相比采用真實(shí)分布表示時(shí)候多出的部分鄙麦。
在機(jī)器學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)的分布已經(jīng)固定下來(lái)镊折,那么真實(shí)分布的熵 H ( p ) 是一個(gè)定值胯府。最小化相對(duì)熵 KL (p∥q) 等價(jià)于最小化交叉熵 H ( p , q ) 。
JS散度
由于KL散度是非對(duì)稱的骂因,使用不夠方便俄烁,各種信息論大佬做了優(yōu)化,
這個(gè)也是GAN網(wǎng)絡(luò)使用的目標(biāo)函數(shù)
機(jī)器學(xué)習(xí)是什么?
機(jī)器學(xué)習(xí)是運(yùn)用大數(shù)據(jù)技術(shù)做統(tǒng)計(jì)分析帮辟,對(duì)外來(lái)做預(yù)測(cè)的系統(tǒng)性方法蔓榄。
機(jī)器學(xué)習(xí)的流程
定義問(wèn)題
- 確定樣本數(shù)據(jù)x [& y] 有沒(méi)有y 可分為監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)澜搅,目前大部分的算法都是監(jiān)督學(xué)習(xí)
- 確定目標(biāo) loss(x) = f(x)
這里的f(x) 在分類問(wèn)題上一般引入的就是 交叉熵 或者 KL散度妨退,本質(zhì)上是用一個(gè)分布p(真實(shí)分布)和另一個(gè)分布q(樣本分布)的關(guān)系萍丐,來(lái)定義問(wèn)題拱层。
交叉熵越小,p 和 q的分布越接近,越可以用f(q)代表f(p) - 確定衡量標(biāo)準(zhǔn): 準(zhǔn)確率 召回率 F1-Score 等等
數(shù)據(jù)分組(for 監(jiān)督學(xué)習(xí))
分為訓(xùn)練集搏明、驗(yàn)證集、測(cè)試集
訓(xùn)練集(train set) —— 用于模型擬合的數(shù)據(jù)樣本(真實(shí)信息 + 噪聲)行您,我們要做的就是在有噪聲影響下笛质,獲取真實(shí)信息俊马。
驗(yàn)證集(validation set)—— 是模型訓(xùn)練過(guò)程中單獨(dú)留出的樣本集艘儒,它可以用于調(diào)整模型的超參數(shù)和用于對(duì)模型的能力進(jìn)行初步評(píng)估。 通常用來(lái)在模型迭代訓(xùn)練時(shí)疾牲,用以驗(yàn)證當(dāng)前模型泛化能力(準(zhǔn)確率暑椰,召回率等),以決定是否停止繼續(xù)訓(xùn)練婶溯。
本質(zhì)上是通過(guò)信息的冗余,或者正交信息來(lái)了解模型的正確性妓忍。
測(cè)試集 —— 用來(lái)評(píng)估模最終模型的泛化能力祖凫。但不能作為調(diào)參惠况、選擇特征等算法相關(guān)的選擇的依據(jù)煎谍。
為什么要把數(shù)據(jù)分那么多份漫雷?
訓(xùn)練
訓(xùn)練這個(gè)詞恍涂,其實(shí)可以說(shuō)成 擬合+調(diào)參+驗(yàn)證的過(guò)程
step 1: 擬合(減少偏差)
step 2: 泛化(減少方差)植榕,防止過(guò)擬合
step 3: 正則化
訓(xùn)練過(guò)程:
所有算法再沧,萬(wàn)變不離其中。