《數(shù)學(xué)之美》讀書筆記

P60228-214857.jpg

1.整體來說此改，這本書到底在談些什么共啃？

談數(shù)學(xué)知識在計算機中的實際應(yīng)用暂题，還有精妙的數(shù)學(xué)方法。

2.作者細部說了什么纵苛，怎么說的攻人？

作者細部介紹了現(xiàn)實世界關(guān)于信息的問題（現(xiàn)象）悬槽，進而用數(shù)學(xué)模型描述，細節(jié)上也說明了運用的數(shù)學(xué)方法蓬坡。

3. 這本書內(nèi)容真實嗎屑咳？說得有道理嗎？是全部有道理位迂，還是部分有道理详瑞？

真實臣缀，有道理精置。作者在書中介紹的內(nèi)容都已在實際中運用，不是假設(shè)和推理番宁。

4. 這本書跟你有什么關(guān)系赖阻？這究竟有什么意義火欧？

這本書闡述了看似無用的數(shù)學(xué)知識，在某些方面發(fā)揮了強大的作用赶盔，真真實實地向我展示了“數(shù)學(xué)之美”榆浓。對我來說陡鹃，我更了解了數(shù)學(xué)在計算機中的實際應(yīng)用，數(shù)學(xué)在計算機中很重要谎倔，到底重要在哪里猿推？書中提供了一部分有力的答案。

這篇讀書筆記應(yīng)該怎么寫藕咏？
第一孽查，我要重新整合篇章結(jié)構(gòu)，聚合相同的主題西设。第二贷揽，我要記下在那些美麗的數(shù)學(xué)方法梦碗。

這本書的結(jié)構(gòu)是怎樣的？

各章在書中相對時獨立的印屁，但是又有著相同的主題——自然語言處理雄人、搜索引擎等念赶。各章的主題都是介紹一個數(shù)學(xué)方法晶乔，它們往往顯得“簡單”，卻又很強大阵漏，作者說這就是“數(shù)學(xué)之美”翻具。我認為裆泳，本書的第一個主題是自然語言處理，第二個是搜索引擎运提，第三個是應(yīng)用到各個地方的技術(shù)，第四個我分為人物專題癣丧。

第一部分——自然語言處理

自然語言處理的歷史——人們最先想到的方法是讓計算機像人一樣了解自然語言的語法胁编，進而“讀懂”自然語言鳞尔，經(jīng)過了十幾年后寥假，那些基于文法規(guī)律的模型卻被新出現(xiàn)的基于統(tǒng)計模型輕易地打敗了。基于文法規(guī)律的模型有什么問題呢兔沃？——1.人類自然語言的規(guī)則太多级及，“特例”也很多饮焦，要用人工完善這些特例是一件工作量非常大的工作，導(dǎo)致這個模型的進步緩慢转绷。2.一個簡單的句子都可以分析出一個復(fù)雜的語法樹硼啤，而復(fù)雜句子的語法樹甚至在一張紙上也畫不下谴返，后期處理的計算量自然非常大。
基于統(tǒng)計的模型為什么那么強大籍救？或者說渠抹，它為什么又更合理？——要解答這個問題桃煎，首先要弄清一個問題——自然語言的本質(zhì)是什么大刊？自然語言從本質(zhì)上來說是一種上下文相關(guān)的信息缺菌，講到這里，不得不介紹信息傳播模型耿战。

信息傳輸模型.png
人們簡化了語言的單詞（一個單詞多種意思）和發(fā)音（一種發(fā)音多種意思）剂陡，然后用上下文去消除歧義鸭栖∥粘玻——計算機是否也能用這種方法消除歧義暴浦？如果一個句子沒有歧義，那么自然就可以得到它的意思飞几。答案是可以独撇，方法就是上下文相關(guān)特性的統(tǒng)計語言模型券勺。統(tǒng)計語言模型之所以強大就是因為它與自然語言的特性更相符，也更適合計算機處理程腹。
統(tǒng)計語言模型的原理是什么寸潦？簡單來說，“一個句子是否合理命雀，就看他的可能性大小如何吏砂。”這個概率的計算方法可以搜索“二元文法模型”得到更細致的公式乘客。
要想實現(xiàn)二元模型必須想要實現(xiàn)分詞易核，方法也是運用統(tǒng)計語言模型，假設(shè)一個句子有幾種分詞結(jié)果缀匕，ASDFGGG乡小、DJFJDHDK花竞、FJDKJFJDND约急，運用統(tǒng)計語言模型的方法就可以計算這種分詞方法的可能性厌蔽，無疑可能性最大的結(jié)果是最優(yōu)的摔癣。為了簡化運算择浊，需要用到“維特比算法”。
這樣投剥，我們實現(xiàn)了讓機器“理解”一個句子江锨。那么，我們能否做到讓機器去理解一段語音酌心，顯然答案是可以的安券。語音識別的過程相當于觀測到一段連續(xù)信號浮毯，然后用它去推測原信號表達的意思债蓝。這時候我們就得到了一概率公式，這個公式可以用“隱含馬爾科夫模型”近似求解芳誓。
翻譯的二義性怎么解決锹淌？——信息熵——信息的作用是什么，信息的作用是消除不確定性钟些，信息熵一方面就是這種不確定性的度量——想要消除或降低一段信息的不確定性就要引入一段新的信息去補充政恍，然而，“美國大選的獲勝者”引入“你的年齡”這個信息迫筑，并沒有能有效降低不確定性。那么如何衡量兩段信息的相關(guān)程度宗弯？——“互信息”“ 互信息(Mutual Information)是信息論里一種有用的信息度量脯燃，它可以看成是一個隨機變量中包含的關(guān)于另一個隨機變量的信息量，或者說是一個隨機變量由于已知另一個隨機變量而減少的不肯定性蒙保≡铮”——當我們有足夠的信息，我們就可以算出互信息。

第二部分——搜索引擎

互聯(lián)網(wǎng)上有那么多的網(wǎng)頁坟募，為什么搜索引擎可以在很短的時間內(nèi)找到大量的結(jié)果?——建立索引岛蚤，那么索引是如何工作的呢懈糯？——我們可以用一個很長的二進制數(shù)表示一個關(guān)鍵詞是否出現(xiàn)在某篇文本里涤妒，比如0001010010111001中的1表示哪些文章出現(xiàn)了這個關(guān)鍵詞，而010101001101表示了哪些文章出現(xiàn)了另外的一些關(guān)鍵詞赚哗，對它們進行簡單的布爾運算AND她紫，我們就能得到要找的結(jié)果∮齑ⅲ【問題：為什么不是建立了一個關(guān)鍵詞表贿讹，然后每篇文章?lián)松梢粋€二進制數(shù)，然后用關(guān)鍵詞相應(yīng)的二進制數(shù)進行匹配够掠？例如——關(guān)鍵詞：0101000000 文獻：0101010111民褂，有0為0，其余情況為1（布爾運算AND）可以嗎疯潭？】
那么多的網(wǎng)頁赊堪，要做以上的操作，我至少要先把它們下載回來吧竖哩，那么如何保障下載回來的網(wǎng)頁沒有重復(fù)哭廉？——圖論中的遍歷算法，廣度優(yōu)先搜索（BFS）和深度優(yōu)先搜索（DFS）相叁，簡單來說遵绰，BFS就是先搜索每個節(jié)點直接相連的其他節(jié)點，DFS就是順著一個節(jié)點的相連的節(jié)點走到底增淹，再返回上一層繼續(xù)相同操作椿访。書中的解釋簡單易懂，還有圖例說明埠通。那么用什么工具去實現(xiàn)這樣的操作赎离？——網(wǎng)絡(luò)爬蟲逛犹，同時端辱，人們用哈希表記錄網(wǎng)頁是否下載過。那么哈希表又是怎樣記錄這些內(nèi)容虽画？這篇文章的解釋很不錯舞蔽。
那好，我們能讓用戶通過搜索得到很多的網(wǎng)頁码撰，現(xiàn)在我們要考慮的問題是如何能讓搜索最相關(guān)的網(wǎng)頁和質(zhì)量最高的網(wǎng)頁顯示在最前面渗柿，畢竟，沒有用戶會想得到滿是廣告的搜索結(jié)果吧。Google的PageRank算法就是為了解決這個問題而生朵栖，它根據(jù)其他網(wǎng)頁對這個網(wǎng)頁的信息颊亮，例如其他網(wǎng)頁對這個網(wǎng)頁的鏈接，來確定它是否值得依賴陨溅，但事情沒有那么簡單终惑，不同質(zhì)量的網(wǎng)站理所當然有不同的權(quán)重，要計算這個“質(zhì)量”又要先知道排名门扇，這就變成了一個循環(huán)雹有。那么如何解決？——二維矩陣相乘臼寄，這個算法最終實現(xiàn)的效果是無論如何取排名的初始值霸奕，都能保證結(jié)果向真實值收斂。為了解決計算量太大的問題吉拳，還要用到一種叫做“稀疏矩陣運算”的技巧质帅。我們得到了哪些網(wǎng)頁是比較有價值的結(jié)果，但是我們?nèi)绾未_定哪些是用戶需要的內(nèi)容留攒？——TF-IDF（詞頻-逆文本指數(shù)）
防作弊問題临梗，作弊方法：重復(fù)關(guān)鍵詞，引用鏈接稼跳。第一種方法作者說是很好解決的盟庞，第二種方法也可以用數(shù)學(xué)的方法解決。
結(jié)果的權(quán)威度——不同的信息源對不同的信息有不同的權(quán)威汤善，

第三部分——各種技術(shù)

地址分析——有限狀態(tài)機什猖，有限狀態(tài)機是一種特殊的有向圖，有限狀態(tài)機只能進行模糊匹配红淡，于是又有了基于概率的有限狀態(tài)機不狮，
全球?qū)Ш健獎討B(tài)分析，在圖論中在旱，一個抽象的圖包括一些節(jié)點和連接他們的弧摇零，如何考慮每條弧的權(quán)重，這個圖是加權(quán)圖桶蝎，關(guān)于這個動態(tài)規(guī)劃驻仅，書中有很精彩簡單易懂的描述，但以我的理解無法更簡潔地復(fù)述了登渣，原理是“將尋找全程最短的路線分解為一個個尋找局部路線的小問題噪服。”
新聞分類——“計算機的本質(zhì)上只能做快速運算胜茧，為了讓計算機能夠“算”新聞”(而不是讀新聞)粘优，就要求我們先把文字的新聞變成一組可計算的數(shù)字，然后再設(shè)計一個算法來算出任何兩篇新聞的相似性”⑺常“——具體做法就是算出新聞中每個詞的TF-IDF值丹墨，然后按照詞匯表排成一個向量，我們就可以對這個向量進行運算了嬉愧，那么如何度量兩個向量带到？——向量的夾角越小，那么我們就認為它們更相似英染，而長度因為字數(shù)的不同并沒有太大的意義揽惹。——如何計算夾角四康，那就用到了余弦定理（公式略）搪搏。——如何建立新聞類別的特征向量闪金，有兩種方法疯溺，手工和自動生成。至于自動分類的方法哎垦，書本上有介紹囱嫩，我這里就略過了。很巧妙漏设，但是我的篇幅肯定是放不下的墨闲。除余弦定理之外，還可以用矩陣的方法對文本進行分類郑口，但這種方法需要迭代很多次鸳碧，對每個新聞都要兩兩計算，但是在數(shù)學(xué)上有一個十分巧妙的方法——奇異值分解(SVD)犬性。奇異值分解瞻离，就是把上面這樣的大矩陣，分解為三個小矩陣的相乘乒裆。這三個小矩陣都有其物理含義套利。這種方法能夠快速處理超大規(guī)模的文本分類，但是結(jié)果略顯粗陋鹤耍，如果兩種方法一前一后結(jié)合使用肉迫，既能節(jié)省時間，又提高了精確性惰蜜。

Paste_Image.png

//簡書的投稿推薦無疑也用到了文本分析昂拂，不過是比較簡單的文本分析算法受神。

信息指紋——網(wǎng)頁本身太長抛猖，儲存5000億個網(wǎng)址就要50TB，而且對字符串的查找又比較慢，所以一種算法——偽隨機數(shù)產(chǎn)生器算法就產(chǎn)生了财著，它能把任意長度的整數(shù)轉(zhuǎn)化為特定長度的隨機數(shù)联四，這樣爬蟲就能更快地識別一個網(wǎng)頁是否下載過。cookie也是一種信息指紋撑教。書中還介紹了幾種信息指紋的用法朝墩，①判斷兩個集合是否相同，②判斷集合是否基本相同伟姐。③判斷文本是否相同收苏。
視頻的反盜版——視頻中關(guān)鍵幀才是連續(xù)的圖像，其他幀儲存與關(guān)鍵幀的差異值愤兵，用信息指紋處理這些關(guān)鍵幀鹿霸，再比對是否相同，就知道了是否盜版秆乳。
RSA算法——這個算法用公鑰加密信息懦鼠，而用私鑰解碼，公鑰可以公開屹堰，但是只有知道私鑰的人才能解碼肛冶，而且也不能從公鑰反推出私鑰(理論上可以，但是計算量十分巨大)扯键，這個算法幾乎可以說建立了互聯(lián)網(wǎng)安全的基礎(chǔ)睦袖，2016年圖靈獎就頒發(fā)給了在互聯(lián)網(wǎng)加密做出杰出貢獻的兩位科學(xué)家。拓展閱讀荣刑。
拼音輸入法的數(shù)學(xué)原理——我認為還是閱讀原文為好扣泊。

第四部分——人物專題

賈里尼克——作者用一篇文章介紹他，我看到的是——少年普通嘶摊，拿到MIT的全額獎學(xué)金——提出厲害的算法延蟹，在大公司IBM領(lǐng)導(dǎo)研究室，取得優(yōu)秀成果——暮年另一所大學(xué)在信息處理領(lǐng)域取得全球領(lǐng)先地位——生活簡樸叶堆。
阿米特·辛格博士——作者這篇文章主要介紹辛格博士做事情的哲學(xué)阱飘，先用最簡單的辦法解決80%的問題，剩下的再慢慢解決虱颗，這種做法避免了開發(fā)大而全的功能導(dǎo)致的工期過長問題沥匈，我認為在實際中是更實用的。
馬庫斯與他的弟子們——馬庫斯推動了統(tǒng)計方法在自然語言處理方面的應(yīng)用忘渔，建立標準語料庫高帖。另外介紹了三個他的學(xué)生的成績。

思維導(dǎo)圖

《數(shù)學(xué)之美》.png

讀后感

這本書在2月25號從第三章開始看畦粮，到28號看完散址，大約兩百七十多頁乖阵，我看這么快一方面是我跳過了我都不懂的延伸閱讀部分，因為讀懂那部分必須一些我并沒有掌握的知識预麸；另一方面則是作者的講解非常的透徹瞪浸，深入淺出，即使對相關(guān)知識了解不深吏祸，也能讀懂作者的內(nèi)容对蒲。我想，我的這篇讀書筆記是斷然寫不好贡翘，因為書中最精彩的部分蹈矮，關(guān)于數(shù)學(xué)的那部分，恰恰是我不能從讀書筆記中表達出來的部分鸣驱。所以我的這篇讀書筆記含滴，是有很大的不足的，在于那些缺乏的公式和解釋丐巫。除了上面我提到的技術(shù)谈况，作者還介紹了其他的技術(shù)和數(shù)學(xué)。
其他作者介紹了的技術(shù)和數(shù)學(xué)

布隆過濾器
貝葉斯網(wǎng)絡(luò)
條件隨機場和文法分析
維特比算法
CDMA技術(shù)
期望最大化算法
邏輯回歸模型
分治算法
人工神經(jīng)網(wǎng)絡(luò)
大數(shù)據(jù)
NP問題

對于那些理科專業(yè)的學(xué)生递胧，特別是數(shù)學(xué)和計算機碑韵，這本書是非常有益的，這本書適合想了解自然語言處理的專業(yè)人士缎脾，同時祝闻，這本書也適合那些并不了解這方面知識的人們，因為作者的描寫真的做到了淺白易懂遗菠。最后联喘，我建議有興趣的朋友可以買一本《數(shù)學(xué)之美》，親自觀察數(shù)學(xué)的美麗之光辙纬。

題外話

歡迎任何想了解這本書的朋友和我交流豁遭，也歡迎指出我文章中的錯誤，良好的互動能幫助我們互相進步贺拣，: D

最后編輯于：2017.12.03 02:51:40

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末蓖谢，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子譬涡，更是在濱河造成了極大的恐慌闪幽，老刑警劉巖，帶你破解...
沈念sama閱讀 206,968評論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件涡匀，死亡現(xiàn)場離奇詭異盯腌，居然都是意外死亡，警方通過查閱死者的電腦和手機陨瘩，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,601評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門腕够，熙熙樓的掌柜王于貴愁眉苦臉地迎上來级乍，“玉大人，你說我怎么就攤上這事燕少】ㄕ撸” “怎么了蒿囤？”我有些...
開封第一講書人閱讀 153,220評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵客们，是天一觀的道長。經(jīng)常有香客問我材诽，道長底挫，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,416評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任脸侥，我火速辦了婚禮建邓，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘睁枕。我一直安慰自己官边，他們只是感情好，可當我...
茶點故事閱讀 64,425評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布外遇。她就那樣靜靜地躺著注簿，像睡著了一般。火紅的嫁衣襯著肌膚如雪跳仿。梳的紋絲不亂的頭發(fā)上诡渴，一...
開封第一講書人閱讀 49,144評論 1贊 285
城市分裂傳說
那天，我揣著相機與錄音菲语，去河邊找鬼妄辩。笑死，一個胖子當著我的面吹牛山上，可吹牛的內(nèi)容都是我干的眼耀。我是一名探鬼主播，決...
沈念sama閱讀 38,432評論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼佩憾，長吁一口氣：“原來是場噩夢啊……” “哼畔塔！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起鸯屿，我...
開封第一講書人閱讀 37,088評論 0贊 261
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤澈吨，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后寄摆，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體谅辣，經(jīng)...
沈念sama閱讀 43,586評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,028評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年婶恼，在試婚紗的時候發(fā)現(xiàn)自己被綠了桑阶。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片柏副。...
茶點故事閱讀 38,137評論 1贊 334
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖蚣录，靈堂內(nèi)的尸體忽然破棺而出割择，到底是詐尸還是另有隱情，我是刑警寧澤萎河，帶...
沈念sama閱讀 33,783評論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布荔泳，位于F島的核電站，受9級特大地震影響虐杯，放射性物質(zhì)發(fā)生泄漏玛歌。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,343評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一擎椰、第九天我趴在偏房一處隱蔽的房頂上張望支子。院中可真熱鬧，春花似錦达舒、人聲如沸值朋。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,333評論 0贊 19
一樁弒父案巩搏，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽昨登。三九已至，卻和暖如春塔猾，著一層夾襖步出監(jiān)牢的瞬間篙骡，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,559評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工丈甸，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留糯俗，地道東北人。一個月前我還...
沈念sama閱讀 45,595評論 2贊 355
代替公主和親
正文我出身青樓睦擂，卻偏偏與公主長得像得湘，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子顿仇，可洞房花燭夜當晚...
茶點故事閱讀 42,901評論 2贊 345