姓名:張志文 學(xué)號(hào):19021210649
【嵌牛觀察】
信息論是一個(gè)重要的領(lǐng)域饶米,它對(duì)深度學(xué)習(xí)和人工智能作出了重大貢獻(xiàn)玄捕,但很多人對(duì)它卻并不了解。信息論可以看作是微積分不瓶、概率論和統(tǒng)計(jì)學(xué)這些深度學(xué)習(xí)基本組成部分的復(fù)雜融合禾嫉。人工智能中的很多概念來(lái)自信息論或相關(guān)領(lǐng)域。
【嵌牛鼻子】
深度學(xué)習(xí)蚊丐;信息論
【嵌牛提問(wèn)】
關(guān)于深度學(xué)習(xí)的信息理論有哪些熙参?
【嵌牛正文】
信息論簡(jiǎn)史
在20世紀(jì)初期,科學(xué)家和工程師們努力解決這樣的問(wèn)題:“如何量化信息麦备?有沒(méi)有一種分析方法或數(shù)學(xué)方法可以告訴我們信息的內(nèi)容孽椰?”
例如昭娩,考慮以下兩句話:
布魯諾是一條狗。
布魯諾是一條大棕狗黍匾。
第二句話給了我們更多的信息栏渺,因?yàn)樗€告訴布魯諾除了是“狗”之外還是“大的”和“棕色的”。我們?nèi)绾瘟炕瘍蓚€(gè)句子之間的差異锐涯?我們能否有一個(gè)數(shù)學(xué)測(cè)量方法告訴我們第二句話與第一句話相比多了多少信息磕诊?
科學(xué)家們一直在努力解決這些問(wèn)題。語(yǔ)義纹腌,域和數(shù)據(jù)形式只會(huì)增加問(wèn)題的復(fù)雜性霎终。數(shù)學(xué)家和工程師克勞德·香農(nóng)提出了“熵”的概念,它永遠(yuǎn)改變了我們的世界升薯,這標(biāo)志著數(shù)字信息時(shí)代的開(kāi)始莱褒。
克勞德·香農(nóng)提出“數(shù)據(jù)的語(yǔ)義方面是無(wú)關(guān)緊要的”,數(shù)據(jù)的性質(zhì)和含義在信息內(nèi)容方面并不重要涎劈。相反保礼,他根據(jù)概率分布和"不確定性"來(lái)量化信息。香農(nóng)還引入了“bit”這個(gè)詞责语,這一革命性的想法不僅奠定了信息論的基礎(chǔ)炮障,而且為人工智能等領(lǐng)域的進(jìn)步開(kāi)辟了新的途徑。
下面將討論深度學(xué)習(xí)和數(shù)據(jù)科學(xué)中四種流行的坤候,廣泛使用的和必須已知的信息論概念:
熵
也可以稱為信息熵或香農(nóng)熵胁赢。
熵給出了實(shí)驗(yàn)中不確定性的度量。讓我們考慮兩個(gè)實(shí)驗(yàn):
拋出一枚無(wú)偏硬幣(P(H)= 0.5)并觀察它的輸出白筹,假設(shè)H
拋出一枚有偏硬幣(P(H)= 0.99)并觀察其輸出智末,假設(shè)H
如果我們比較兩個(gè)實(shí)驗(yàn),與實(shí)驗(yàn)1相比徒河,實(shí)驗(yàn)2更容易預(yù)測(cè)結(jié)果系馆。因此,我們可以說(shuō)實(shí)驗(yàn)1本質(zhì)上比實(shí)驗(yàn)2更不確定或不可預(yù)測(cè)顽照。實(shí)驗(yàn)中的這種不確定性是使用熵度量的由蘑。
因此,如果實(shí)驗(yàn)中存在更多固有的不確定性代兵,那么它的熵更大尼酿。或者說(shuō)實(shí)驗(yàn)越不可預(yù)測(cè)熵越大植影。實(shí)驗(yàn)的概率分布用于計(jì)算熵裳擎。
一個(gè)完全可預(yù)測(cè)的確定性實(shí)驗(yàn),即投擲P(H)= 1的硬幣的熵為零思币。一個(gè)完全隨機(jī)的實(shí)驗(yàn)鹿响,比如滾動(dòng)無(wú)偏骰子羡微,是最不可預(yù)測(cè)的,具有最大的不確定性惶我,在這些實(shí)驗(yàn)中熵最大拷淘。
另一種觀察熵的方法是我們觀察隨機(jī)實(shí)驗(yàn)結(jié)果時(shí)獲得的平均信息。將實(shí)驗(yàn)結(jié)果獲得的信息定義為該結(jié)果發(fā)生概率的函數(shù)指孤。結(jié)果越罕見(jiàn)启涯,從觀察中獲得的信息就越多。
例如恃轩,在確定性實(shí)驗(yàn)中结洼,我們總是知道結(jié)果,因此通過(guò)觀察結(jié)果沒(méi)有獲得新信息叉跛,因此熵為零松忍。
數(shù)學(xué)定義
對(duì)于離散隨機(jī)變量X,可能的結(jié)果(狀態(tài))x_1筷厘,...鸣峭,x_n,熵(以位為單位)定義為:
其中p(x_i)是X的第i個(gè)結(jié)果的概率酥艳。
應(yīng)用
熵用于自動(dòng)決策樹(shù)構(gòu)造摊溶。在樹(shù)構(gòu)建的每個(gè)步驟中,使用熵標(biāo)準(zhǔn)來(lái)完成特征選擇充石。
基于最大熵原理選擇模型莫换,從對(duì)比的模型中選出熵最大的模型為最佳模型。
交叉熵
交叉熵用于比較兩個(gè)概率分布骤铃。它告訴我們兩個(gè)分布有多相似拉岁。
數(shù)學(xué)定義
在相同的結(jié)果集上定義的兩個(gè)概率分布p和q之間的交叉熵由下式給出:
應(yīng)用
基于卷積神經(jīng)網(wǎng)絡(luò)的分類器通常使用softmax層作為最后一層,并使用交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練
交叉熵?fù)p失函數(shù)廣泛用于邏輯回歸等分類模型惰爬,隨著預(yù)測(cè)偏離真實(shí)輸出喊暖,交叉熵?fù)p失函數(shù)會(huì)增大。
在諸如卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)架構(gòu)中撕瞧,最終輸出的softmax層經(jīng)常使用交叉熵作為損失函數(shù)陵叽。
交互信息
交互信息是兩種概率分布或隨機(jī)變量之間相互依賴性的度量。它告訴我們另一個(gè)變量有多少關(guān)于該變量的信息风范。
交互信息獲取隨機(jī)變量之間的依賴性咨跌,比一般的相關(guān)系數(shù)更具廣義性,后者只表現(xiàn)線性關(guān)系硼婿。
數(shù)學(xué)定義
兩個(gè)離散隨機(jī)變量X和Y的交互信息定義為:
其中p(x,y)是X和Y的聯(lián)合概率分布,p(x)和p(y)分別是X和Y的邊緣概率分布禽车。
應(yīng)用
在貝葉斯網(wǎng)絡(luò)中寇漫,可以使用交互信息來(lái)確定變量之間的關(guān)系結(jié)構(gòu)
特征選擇:使用交互信息刊殉,而不是使用相關(guān)性。相關(guān)性僅表現(xiàn)線性依賴性而忽略非線性依賴性州胳,但交互信息不會(huì)记焊。零的交互獨(dú)立性保證隨機(jī)變量是獨(dú)立的,但零相關(guān)不是栓撞。
在貝葉斯網(wǎng)絡(luò)中遍膜,交互信息用于學(xué)習(xí)隨機(jī)變量之間的關(guān)系結(jié)構(gòu),并定義這些關(guān)系的強(qiáng)度瓤湘。
Kullback Leibler(KL)散度
也稱為相對(duì)熵瓢颅。
KL散度是另一種表示兩個(gè)概率分布之間相似性的方法。它衡量一個(gè)分布與另一個(gè)分布的差異弛说。
假設(shè)我們有一些數(shù)據(jù)挽懦,它的真實(shí)分布是P。但是我們不知道P木人,所以我們選擇一個(gè)新的分布Q來(lái)近似這個(gè)數(shù)據(jù)信柿。由于Q只是一個(gè)近似值,它無(wú)法像P那樣準(zhǔn)確地逼近數(shù)據(jù)醒第,會(huì)造成一些信息的丟失渔嚷。這個(gè)信息損失由KL散度給出。
P和Q之間的KL散度告訴我們稠曼,當(dāng)我們?cè)噲D用P和Q來(lái)近似數(shù)據(jù)時(shí)圃伶,我們損失了多少信息。
數(shù)學(xué)定義
一個(gè)概率分布Q與另一個(gè)概率分布P的KL散度定義為:
應(yīng)用
KL散度通常用于無(wú)監(jiān)督機(jī)器學(xué)習(xí)技術(shù)中的變分自編碼器蒲列。
信息論最初是由數(shù)學(xué)家和電氣工程師克勞德·香農(nóng)窒朋,在1948年的開(kāi)創(chuàng)性論文“通信的數(shù)學(xué)理論”中提出的。
本文內(nèi)容為轉(zhuǎn)載蝗岖,版權(quán)歸作者所有