從信息論說起(雜談)

什么是信息仇奶?在信息科技書的第一章锣咒,信息論的香農(nóng)從通信的角度給信息的解釋為:用來消除不確定性的東西几迄。在課堂上红符,會這么給學(xué)生解釋這句話的意思(例子來自施老師):老師進(jìn)入教室青柄,你們可能會想伐债,這個是老師嗎?使我們的信息老師嗎致开?今年幾歲了峰锁?有沒有結(jié)婚?有沒有小孩双戳?當(dāng)老師做了自我介紹虹蒋,你們腦子里的疑問也就一個個被消除了。書上的例子是關(guān)于旅游查詢信息的例子飒货。我上課的時候也只是強(qiáng)調(diào)信息和載體的區(qū)別魄衅,比如報紙、報紙上的文字塘辅、報紙上文字所傳達(dá)的內(nèi)容晃虫。

沒有怎么深究過香農(nóng)、信息論扣墩、通信方面的內(nèi)容哲银。直到KK老師推薦張汶老師的文章《以信息論的視角理解信息科技課程的核心概念》【1】,然后花了一點(diǎn)時間去研究香農(nóng)的信息論呻惕。雖然是計算機(jī)出身荆责,但是計算機(jī)專業(yè)從來都沒有提到香農(nóng),也沒有提到什么是信息亚脆。拜讀了張老師的文章做院,知乎上的文章,沒看懂啥意思濒持。然后我詢問了huan键耕,問問有沒有懂這方面知識的大神,沒想到huan滔滔不絕地介紹起信息論的一些知識弥喉,我一知半解郁竟,有點(diǎn)概念了。突然意識到為啥計算機(jī)專業(yè)沒有提到信息論由境,因?yàn)檫@個是通信的基礎(chǔ)知識棚亩,終于明白當(dāng)年計算機(jī)和通信為啥是一個輔導(dǎo)員了,從數(shù)理并到機(jī)電的時候虏杰,也是計算機(jī)和通信專業(yè)并過去了讥蟆,原來是有那么點(diǎn)關(guān)系的。接著抽空去了上海圖書館纺阔,最坑爹的是瘸彤,書名叫做信息論的書都在綜合藏館,我的借書卡在家里笛钝,所以純講信息論的書沒法看质况,只能去中文圖書館愕宋。本著阿Q精神,讀書千遍结榄,其義自見的精神中贝,把關(guān)于通信的書全部搬下來,只看關(guān)于信息臼朗、信息熵有關(guān)的內(nèi)容邻寿,希望能看懂些什么∈友疲看著看著绣否,發(fā)現(xiàn)天下文章一大“抄”,大部分內(nèi)容都差不多挡毅,一些術(shù)語也漸漸不陌生了蒜撮。回家把張老師的文章和網(wǎng)絡(luò)上關(guān)于信息論的文章又重新看了一遍慷嗜,終于明白了點(diǎn)什么淀弹,好像能夠串起來了。

我們用克庆械、千克、斤等單位來衡量重量菌赖,用厘米缭乘、分米、毫米等單位來衡量長度琉用。什么是信息堕绩?大家都能理解,也經(jīng)常使用邑时,但是要給信息下個定義奴紧,確實(shí)很難。有沒有衡量信息的單位晶丘?什么是信息量大黍氮?什么是信息量小浅浮?對于一些人來說沫浆,某某消息的信息量很大,同樣的消息滚秩,對于某人來說专执,已經(jīng)知道了,沒啥信息量郁油。

直到香農(nóng)提出了一個數(shù)學(xué)公式本股,來定義信息攀痊,這個公式和概率有關(guān),當(dāng)概率大的時候拄显,信息量小蚕苇,當(dāng)概率小的時候,信息量大凿叠。當(dāng)時和Huan電話涩笤,他舉了一個例子,也是人工智能課上危輝老師舉的例子盒件,當(dāng)時危老師舉這個例子的時候蹬碧,我只覺得好玩,并沒有意識到危老師在講信息論的知識炒刁,囧恩沽。這個例子是這樣的:狗咬人和人咬狗。狗咬人翔始,發(fā)生的概率比較大罗心,所以信息量比較小,但是人咬狗城瞎,不是狗肉渤闷,發(fā)生的概率比較小,大家會想這個人是不是得狂犬病了?為什么這個人會去咬狗脖镀?會有很多疑問飒箭,其中的信息量就比較大了。這個例子很形象的解釋了香農(nóng)關(guān)于信息的數(shù)學(xué)公式蜒灰。

關(guān)于這個數(shù)學(xué)公式弦蹂,有個很特別的名字,叫做信息熵强窖,啥叫熵凸椿,就把我看暈了,好高大上的名字翅溺。然后查閱了一下資料脑漫,了解到,熵是來自物理概念中的熱力學(xué)未巫,百度百科上有個視頻【2】是關(guān)于熵的窿撬,很形象:一杯清水,然后滴入墨水叙凡,最后清水和墨水混合在了一起劈伴。狀態(tài)的變化:清水--》清水+墨水獨(dú)立存在--》墨水開始慢慢延伸,把清水?dāng)嚋喠耍靵y的狀態(tài)--》變成墨水色的水跛璧,穩(wěn)定的狀態(tài)严里。熵,和混亂程度有關(guān)追城。英文中熵是entropy刹碾,中文為什么翻譯成熵,是胡剛復(fù)教授造的詞座柱,火取自熱力學(xué)迷帜,商取自熱溫比中商的概念,然后組合成了這個中文詞---熵色洞,還是蠻有意思的戏锹。和信息論中的信息熵啥關(guān)系,從網(wǎng)上看到的說法火诸,相傳香農(nóng)不知道要給這個公式取什么名字锦针,叫信息量好呢?還是信息度好呢?后來選用了“熵”置蜀,因?yàn)楹苌偃擞媚嗡眩瑥母拍钌喜蝗菀谆煜异乇旧碛谢靵y的意思盯荤,和信息的不確定性也有類似性馋吗,所以選用了信息熵作為公式的名字。

說起這個公式廷雅,香農(nóng)還是從哈特萊那里得到的啟發(fā)(聰明的KK率先搜到的)耗美。早在1928年,哈特萊就想到了航缀,他首先提出信息定量化的初步設(shè)想,他將消息數(shù)的對數(shù)定義為信息量堰怨。若信源有m種消息芥玉,且每個消息是以相等可能產(chǎn)生的,則該信源的信息量可表示為I=log10 m备图〔忧桑看著有點(diǎn)復(fù)雜,和KK一來一回的提問揽涮、思考后抠藕,我得出了這樣的思考過程。首先解決M的問題:m種消息蒋困,我們可以理解為m種狀態(tài)盾似,如果有100種狀態(tài),我們用多少位十進(jìn)制表示雪标?2位十進(jìn)制表示(00-99)零院;如果101中狀態(tài)溉跃,我們用多少位十進(jìn)制表示?3位十進(jìn)制表示(000-100)告抄;其次解決為啥以10為底:大概是當(dāng)時十進(jìn)制比較流行吧撰茎,可能1928年還沒有實(shí)體的計算機(jī),還沒有二進(jìn)制的概念吧(ENIAC計算機(jī)打洼,1946)龄糊;最后解決為啥用log的問題:比如,2位十進(jìn)制可以表示多少種狀態(tài)募疮?10*10(10^2);3位十進(jìn)制可以表示多少種狀態(tài)炫惩?10*10*10(10^3);從數(shù)學(xué)角度上,要求出公式100=10^x中x的值酝锅,只能用log了吧诡必。

1948年,香農(nóng)對其進(jìn)行了更深入的研究搔扁,給出了信息的統(tǒng)計描述:

香農(nóng)用信息熵來定量衡量信息的大小爸舒,而所有輸入電腦的任何信息最終都要轉(zhuǎn)化為二進(jìn)制,所以在信息熵公式中稿蹲,當(dāng)對數(shù)底為2時扭勉,信息量的單位為比特,比特也就是我們現(xiàn)在經(jīng)常用來衡量信息的最小單位苛聘。當(dāng)對數(shù)底為10時涂炎,叫做哈特萊,估計也是紀(jì)念哈特萊的貢獻(xiàn)吧设哗。香農(nóng)的公式和哈特萊的公式區(qū)別在于一個是和概率有關(guān)唱捣,一個是和狀態(tài)、種類有關(guān)网梢。當(dāng)時去問鄭SJ老師關(guān)于log的數(shù)學(xué)問題震缭,她也表示很驚訝,因?yàn)樵诟咧袛?shù)學(xué)中战虏,log屬于一章拣宰,概率屬于一章,沒想到這兩樣?xùn)|西可以放在一起烦感,沒想到這個公式還和信息巡社、通信有關(guān)。對于計算機(jī)出身的我來說手趣,為啥概率和不確定性有關(guān)晌该,對于數(shù)學(xué)出身的鄭老師來說,概率就是和不確定性相關(guān)的。哈哈气笙,再次說明次企,突破都在跨界的領(lǐng)域。

香農(nóng)的信息熵是和概率有關(guān)系的潜圃,也就是說概率越小缸棵,信息量越大,概率越大谭期,信息量越小堵第。如果按這個來理解,書上的例子就有點(diǎn)暈了隧出,我當(dāng)時的理解是踏志,如果按照生活的角度是可以理解的,你看得資料越多胀瞪,信息量就越大针余。但是按照香農(nóng)概率的理解,你看得資料越多凄诞,知道的越多圆雁,確定的東西就越多,概率越大帆谍,信息量不是反而越小了么伪朽。越想越矛盾。經(jīng)過一番和鄭老師的探討汛蝙,大概理解如下烈涮,是個動態(tài)的過程:比如,我剛開始不確定要去哪里旅游窖剑,所以我網(wǎng)上搜資料坚洽,有搜美國、日本西土、英國酪术、西班牙等地區(qū)的旅游信息,信息量就很大了(不確定翠储、概率小、信息量大)橡疼,當(dāng)搜集到一定程度援所,我確定要去哪里旅游了,比如美國欣除,目標(biāo)鎖定后住拭,我只搜和美國相關(guān)的內(nèi)容,信息量就縮小了(確定、概率高滔岳,信息量懈苡椤)。以上理解純屬猜測谱煤,不一定對摊求。畢竟香農(nóng)是從通信的語境解釋的,我們是從生活的語境中解釋的刘离,有偏差室叉。

再回到香農(nóng)的信息熵,從這個公式開始硫惕,信息有了度量單位---比特茧痕,就是我們現(xiàn)在經(jīng)常用來衡量信息的最小單位。bit恼除,在英文里是 binary unit的縮寫踪旷,表示二進(jìn)制位,在中文里叫做比特豁辉。

香農(nóng)的信息熵的概念研究完了令野,來研究香農(nóng)的三個編碼定理。第一定理關(guān)于無失真信源編碼秋忙,第三定理關(guān)于限失真信源編碼彩掐,第二定理關(guān)于信道編碼。什么鬼灰追,連名字都看不懂堵幽。后來看到這張圖,就明白了弹澎。

通信系統(tǒng)模型

通信系統(tǒng)最核心的一幅圖朴下,信源--信道---信宿。通信要解決的是什么問題苦蒿?傳輸信息殴胧、消息對吧,怎么能夠更快更好準(zhǔn)確的傳輸信息呢佩迟?在信源部分团滥,消息盡量不失真,也就是失真率小报强,但是盡量少用符號(我腦子里跳出來電報灸姊,一個字一個錢)。信道部分秉溉,信道上有干擾力惯,所以要有一定的抗干擾能力碗誉,傳輸速度要快。所以只能在信源編碼和信道編碼上下功夫了父晶。信源編碼部分哮缺,減少冗余,提高編碼效率甲喝。然后引出了我們熟悉的有損壓縮和無損壓縮尝苇。信道編碼部分,提高糾錯能力俺猿,多一些冗余茎匠,比如在馬路上運(yùn)輸玻璃杯,為了防止玻璃杯破掉押袍,在玻璃杯之間加一些海綿什么的緩沖物诵冒。由信道編碼,引伸出了現(xiàn)在的密碼學(xué)谊惭。

在回過頭去看那高大上的三個定理汽馋,簡單理解為,信源編碼和信道編碼圈盔,信源編碼分為無損(不失真)和有損(失真)豹芯。

至此,可以大致理解課本中的編排了驱敲,什么是信息---二進(jìn)制---編碼(文字圖像聲音)---壓縮(有損铁蹈、無損)。以前只知道按照課本的順序教众眨,著重在“技術(shù)握牧、計算”上,不知道背后的原理和歷史發(fā)展娩梨。

經(jīng)過這段時間對信息論的初步研究沿腰,覺得古人好偉大,怎么能夠想到這些公式狈定、這些模型的颂龙,沒有他們的付出,也沒有現(xiàn)在的通信和計算機(jī)了纽什。以前聽老師說措嵌,計算機(jī)是建立在物理和數(shù)學(xué)基礎(chǔ)上的一門學(xué)科,在研究信息論的時候芦缰,書上滿滿的數(shù)學(xué)公式铅匹,深深地感受到了這句話,也深深地覺得自己數(shù)學(xué)功底的薄弱饺藤,連log的計算都還給老師了包斑, 囧。從通信的角度出發(fā)涕俗,理解計算機(jī)中經(jīng)常出現(xiàn)的編碼罗丰、壓縮、糾錯碼再姑,還是很有意思的萌抵。

寫不出高大上的期刊文章,寫這篇雜談元镀,記錄下自己這段時間的思考和研究過程绍填,感謝KK、鄭老師栖疑、huan的耐心指點(diǎn)讨永。


參考資料:

【1】張汶,【學(xué)科探索】以信息論的視角理解信息科技課程的核心概念(節(jié)選)遇革,上海教研訂閱號卿闹,http://mp.weixin.qq.com/s?src=11×tamp=1516715699&ver=654&signature=fbGwJll5HqT9QhTSk7W75v5m*hzar51yfH9VIGkk8NgiXXle5M16coSS0YeMX-d98pG2NN7x7Rol7zM5xjicP1PuhM72msNpzksNxaZkELVw87lVsdgBGm-ZeF9tNZfL&new=1

【2】熵,百度百科萝快,https://baike.baidu.com/item/%E7%86%B5/101181?fr=aladdin

還有很多書和網(wǎng)上資料锻霎,就不一一列舉了。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末揪漩,一起剝皮案震驚了整個濱河市旋恼,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌奄容,老刑警劉巖冰更,帶你破解...
    沈念sama閱讀 222,183評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異嫩海,居然都是意外死亡冬殃,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評論 3 399
  • 文/潘曉璐 我一進(jìn)店門叁怪,熙熙樓的掌柜王于貴愁眉苦臉地迎上來审葬,“玉大人,你說我怎么就攤上這事奕谭』辆酰” “怎么了?”我有些...
    開封第一講書人閱讀 168,766評論 0 361
  • 文/不壞的土叔 我叫張陵血柳,是天一觀的道長官册。 經(jīng)常有香客問我,道長难捌,這世上最難降的妖魔是什么膝宁? 我笑而不...
    開封第一講書人閱讀 59,854評論 1 299
  • 正文 為了忘掉前任鸦难,我火速辦了婚禮,結(jié)果婚禮上员淫,老公的妹妹穿的比我還像新娘合蔽。我一直安慰自己,他們只是感情好介返,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,871評論 6 398
  • 文/花漫 我一把揭開白布拴事。 她就那樣靜靜地躺著,像睡著了一般圣蝎。 火紅的嫁衣襯著肌膚如雪刃宵。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,457評論 1 311
  • 那天徘公,我揣著相機(jī)與錄音牲证,去河邊找鬼。 笑死步淹,一個胖子當(dāng)著我的面吹牛从隆,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播缭裆,決...
    沈念sama閱讀 40,999評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼键闺,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了澈驼?” 一聲冷哼從身側(cè)響起辛燥,我...
    開封第一講書人閱讀 39,914評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎缝其,沒想到半個月后挎塌,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,465評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡内边,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,543評論 3 342
  • 正文 我和宋清朗相戀三年榴都,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片漠其。...
    茶點(diǎn)故事閱讀 40,675評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡嘴高,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出和屎,到底是詐尸還是另有隱情拴驮,我是刑警寧澤,帶...
    沈念sama閱讀 36,354評論 5 351
  • 正文 年R本政府宣布柴信,位于F島的核電站套啤,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏随常。R本人自食惡果不足惜潜沦,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,029評論 3 335
  • 文/蒙蒙 一萄涯、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧止潮,春花似錦窃判、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽询件。三九已至燃乍,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間宛琅,已是汗流浹背刻蟹。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留嘿辟,地道東北人舆瘪。 一個月前我還...
    沈念sama閱讀 49,091評論 3 378
  • 正文 我出身青樓,卻偏偏與公主長得像红伦,于是被迫代替她去往敵國和親英古。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,685評論 2 360

推薦閱讀更多精彩內(nèi)容

  • 第1章介紹 1. 為什么要進(jìn)行視頻壓縮昙读? 未經(jīng)壓縮的數(shù)字視頻的數(shù)據(jù)量巨大 存儲困難 一張DVD只能存儲幾秒鐘的未壓...
    ISunshine閱讀 752評論 0 11
  • 昨晚剛把吳軍的這本書書看完召调,好多內(nèi)容都在他之前的《浪潮之巔》真本書中提到過了,最精華的其實(shí)是最后的控制論蛮浑、系統(tǒng)論和...
    英天閱讀 825評論 0 2
  • 引用 所謂的壓縮就是在不損失信息量的前提下唠叛,用新的描述方式表示原有的數(shù)據(jù),而這種方式占用的空間更少沮稚。 先來個小例子...
    2young2simple閱讀 3,114評論 0 1
  • 本文是《硅谷之謎》的讀書筆記之一艺沼,也是我認(rèn)為全書最精彩的一部分。 1蕴掏、維納和控制論 控制論突破了牛頓的絕對時間觀障般。...
    elleyes閱讀 2,319評論 0 3
  • 〇、目的 機(jī)器學(xué)習(xí)的很多算法中囚似,越來越多的利用信息論的一些觀點(diǎn)和結(jié)論剩拢。本文更多的是從機(jī)器學(xué)習(xí)的角度對信息論做一個簡...
    Herbert002閱讀 4,648評論 0 3