1.整體來說此改,這本書到底在談些什么共啃?
談數(shù)學(xué)知識在計算機中的實際應(yīng)用暂题,還有精妙的數(shù)學(xué)方法。
2.作者細部說了什么纵苛,怎么說的攻人?
作者細部介紹了現(xiàn)實世界關(guān)于信息的問題(現(xiàn)象)悬槽,進而用數(shù)學(xué)模型描述,細節(jié)上也說明了運用的數(shù)學(xué)方法蓬坡。
3. 這本書內(nèi)容真實嗎屑咳?說得有道理嗎?是全部有道理位迂,還是部分有道理详瑞?
真實臣缀,有道理精置。作者在書中介紹的內(nèi)容都已在實際中運用,不是假設(shè)和推理番宁。
4. 這本書跟你有什么關(guān)系赖阻?這究竟有什么意義火欧?
這本書闡述了看似無用的數(shù)學(xué)知識,在某些方面發(fā)揮了強大的作用赶盔,真真實實地向我展示了“數(shù)學(xué)之美”榆浓。對我來說陡鹃,我更了解了數(shù)學(xué)在計算機中的實際應(yīng)用,數(shù)學(xué)在計算機中很重要谎倔,到底重要在哪里猿推?書中提供了一部分有力的答案。
這篇讀書筆記應(yīng)該怎么寫藕咏?
第一孽查,我要重新整合篇章結(jié)構(gòu),聚合相同的主題西设。第二贷揽,我要記下在那些美麗的數(shù)學(xué)方法梦碗。
這本書的結(jié)構(gòu)是怎樣的?
各章在書中相對時獨立的印屁,但是又有著相同的主題——自然語言處理雄人、搜索引擎等念赶。各章的主題都是介紹一個數(shù)學(xué)方法晶乔,它們往往顯得“簡單”,卻又很強大阵漏,作者說這就是“數(shù)學(xué)之美”翻具。我認為裆泳,本書的第一個主題是自然語言處理,第二個是搜索引擎运提,第三個是應(yīng)用到各個地方的技術(shù),第四個我分為人物專題癣丧。
第一部分——自然語言處理
- 自然語言處理的歷史——人們最先想到的方法是讓計算機像人一樣了解自然語言的語法胁编,進而“讀懂”自然語言鳞尔,經(jīng)過了十幾年后寥假,那些基于文法規(guī)律的模型卻被新出現(xiàn)的基于統(tǒng)計模型輕易地打敗了。基于文法規(guī)律的模型有什么問題呢兔沃?——1.人類自然語言的規(guī)則太多级及,“特例”也很多饮焦,要用人工完善這些特例是一件工作量非常大的工作,導(dǎo)致這個模型的進步緩慢转绷。2.一個簡單的句子都可以分析出一個復(fù)雜的語法樹硼啤,而復(fù)雜句子的語法樹甚至在一張紙上也畫不下谴返,后期處理的計算量自然非常大。
-
基于統(tǒng)計的模型為什么那么強大籍救?或者說渠抹,它為什么又更合理?——要解答這個問題桃煎,首先要弄清一個問題——自然語言的本質(zhì)是什么大刊?自然語言從本質(zhì)上來說是一種上下文相關(guān)的信息缺菌,講到這里,不得不介紹信息傳播模型耿战。
- 人們簡化了語言的單詞(一個單詞多種意思)和發(fā)音(一種發(fā)音多種意思)剂陡,然后用上下文去消除歧義鸭栖∥粘玻——計算機是否也能用這種方法消除歧義暴浦?如果一個句子沒有歧義,那么自然就可以得到它的意思飞几。答案是可以独撇,方法就是上下文相關(guān)特性的統(tǒng)計語言模型券勺。統(tǒng)計語言模型之所以強大就是因為它與自然語言的特性更相符,也更適合計算機處理程腹。
- 統(tǒng)計語言模型的原理是什么寸潦?簡單來說,“一個句子是否合理命雀,就看他的可能性大小如何吏砂。”這個概率的計算方法可以搜索“二元文法模型”得到更細致的公式乘客。
- 要想實現(xiàn)二元模型必須想要實現(xiàn)分詞易核,方法也是運用統(tǒng)計語言模型,假設(shè)一個句子有幾種分詞結(jié)果缀匕,ASDFGGG乡小、DJFJDHDK花竞、FJDKJFJDND约急,運用統(tǒng)計語言模型的方法就可以計算這種分詞方法的可能性厌蔽,無疑可能性最大的結(jié)果是最優(yōu)的摔癣。為了簡化運算择浊,需要用到“維特比算法”。
- 這樣投剥,我們實現(xiàn)了讓機器“理解”一個句子江锨。那么,我們能否做到讓機器去理解一段語音酌心,顯然答案是可以的安券。語音識別的過程相當于觀測到一段連續(xù)信號浮毯,然后用它去推測原信號表達的意思债蓝。這時候我們就得到了一概率公式,這個公式可以用“隱含馬爾科夫模型”近似求解芳誓。
- 翻譯的二義性怎么解決锹淌?——信息熵——信息的作用是什么,信息的作用是消除不確定性钟些,信息熵一方面就是這種不確定性的度量——想要消除或降低一段信息的不確定性就要引入一段新的信息去補充政恍,然而,“美國大選的獲勝者”引入“你的年齡”這個信息迫筑,并沒有能有效降低不確定性。那么如何衡量兩段信息的相關(guān)程度宗弯?——“互信息”“ 互信息(Mutual Information)是信息論里一種有用的信息度量脯燃,它可以看成是一個隨機變量中包含的關(guān)于另一個隨機變量的信息量,或者說是一個隨機變量由于已知另一個隨機變量而減少的不肯定性蒙保≡铮”——當我們有足夠的信息,我們就可以算出互信息。
第二部分——搜索引擎
- 互聯(lián)網(wǎng)上有那么多的網(wǎng)頁坟募,為什么搜索引擎可以在很短的時間內(nèi)找到大量的結(jié)果?——建立索引岛蚤,那么索引是如何工作的呢懈糯?——我們可以用一個很長的二進制數(shù)表示一個關(guān)鍵詞是否出現(xiàn)在某篇文本里涤妒,比如0001010010111001中的1表示哪些文章出現(xiàn)了這個關(guān)鍵詞,而010101001101表示了哪些文章出現(xiàn)了另外的一些關(guān)鍵詞赚哗,對它們進行簡單的布爾運算AND她紫,我們就能得到要找的結(jié)果∮齑ⅲ【問題:為什么不是建立了一個關(guān)鍵詞表贿讹,然后每篇文章?lián)松梢粋€二進制數(shù),然后用關(guān)鍵詞相應(yīng)的二進制數(shù)進行匹配够掠?例如——關(guān)鍵詞:0101000000 文獻:0101010111民褂,有0為0,其余情況為1(布爾運算AND)可以嗎疯潭?】
- 那么多的網(wǎng)頁赊堪,要做以上的操作,我至少要先把它們下載回來吧竖哩,那么如何保障下載回來的網(wǎng)頁沒有重復(fù)哭廉?——圖論中的遍歷算法,廣度優(yōu)先搜索(BFS)和深度優(yōu)先搜索(DFS)相叁,簡單來說遵绰,BFS就是先搜索每個節(jié)點直接相連的其他節(jié)點,DFS就是順著一個節(jié)點的相連的節(jié)點走到底增淹,再返回上一層繼續(xù)相同操作椿访。書中的解釋簡單易懂,還有圖例說明埠通。那么用什么工具去實現(xiàn)這樣的操作赎离?——網(wǎng)絡(luò)爬蟲逛犹,同時端辱,人們用哈希表記錄網(wǎng)頁是否下載過。那么哈希表又是怎樣記錄這些內(nèi)容虽画?這篇文章的解釋很不錯舞蔽。
- 那好,我們能讓用戶通過搜索得到很多的網(wǎng)頁码撰,現(xiàn)在我們要考慮的問題是如何能讓搜索最相關(guān)的網(wǎng)頁和質(zhì)量最高的網(wǎng)頁顯示在最前面渗柿,畢竟,沒有用戶會想得到滿是廣告的搜索結(jié)果吧。Google的PageRank算法就是為了解決這個問題而生朵栖,它根據(jù)其他網(wǎng)頁對這個網(wǎng)頁的信息颊亮,例如其他網(wǎng)頁對這個網(wǎng)頁的鏈接,來確定它是否值得依賴陨溅,但事情沒有那么簡單终惑,不同質(zhì)量的網(wǎng)站理所當然有不同的權(quán)重,要計算這個“質(zhì)量”又要先知道排名门扇,這就變成了一個循環(huán)雹有。那么如何解決?——二維矩陣相乘臼寄,這個算法最終實現(xiàn)的效果是無論如何取排名的初始值霸奕,都能保證結(jié)果向真實值收斂。為了解決計算量太大的問題吉拳,還要用到一種叫做“稀疏矩陣運算”的技巧质帅。我們得到了哪些網(wǎng)頁是比較有價值的結(jié)果,但是我們?nèi)绾未_定哪些是用戶需要的內(nèi)容留攒?——TF-IDF(詞頻-逆文本指數(shù))
- 防作弊問題临梗,作弊方法:重復(fù)關(guān)鍵詞,引用鏈接稼跳。第一種方法作者說是很好解決的盟庞,第二種方法也可以用數(shù)學(xué)的方法解決。
- 結(jié)果的權(quán)威度——不同的信息源對不同的信息有不同的權(quán)威汤善,
第三部分——各種技術(shù)
- 地址分析——有限狀態(tài)機什猖,有限狀態(tài)機是一種特殊的有向圖,有限狀態(tài)機只能進行模糊匹配红淡,于是又有了基于概率的有限狀態(tài)機不狮,
- 全球?qū)Ш健獎討B(tài)分析,在圖論中在旱,一個抽象的圖包括一些節(jié)點和連接他們的弧摇零,如何考慮每條弧的權(quán)重,這個圖是加權(quán)圖桶蝎,關(guān)于這個動態(tài)規(guī)劃驻仅,書中有很精彩簡單易懂的描述,但以我的理解無法更簡潔地復(fù)述了登渣,原理是“將尋找全程最短的路線分解為一個個尋找局部路線的小問題噪服。”
- 新聞分類——“計算機的本質(zhì)上只能做快速運算胜茧,為了讓計算機能夠“算”新聞”(而不是讀新聞)粘优,就要求我們先把文字的新聞變成一組可計算的數(shù)字,然后再設(shè)計一個算法來算出任何兩篇新聞的相似性”⑺常“——具體做法就是算出新聞中每個詞的TF-IDF值丹墨,然后按照詞匯表排成一個向量,我們就可以對這個向量進行運算了嬉愧,那么如何度量兩個向量带到?——向量的夾角越小,那么我們就認為它們更相似英染,而長度因為字數(shù)的不同并沒有太大的意義揽惹。——如何計算夾角四康,那就用到了余弦定理(公式略)搪搏。——如何建立新聞類別的特征向量闪金,有兩種方法疯溺,手工和自動生成。至于自動分類的方法哎垦,書本上有介紹囱嫩,我這里就略過了。很巧妙漏设,但是我的篇幅肯定是放不下的墨闲。除余弦定理之外,還可以用矩陣的方法對文本進行分類郑口,但這種方法需要迭代很多次鸳碧,對每個新聞都要兩兩計算,但是在數(shù)學(xué)上有一個十分巧妙的方法——奇異值分解(SVD)犬性。奇異值分解瞻离,就是把上面這樣的大矩陣,分解為三個小矩陣的相乘乒裆。這三個小矩陣都有其物理含義套利。這種方法能夠快速處理超大規(guī)模的文本分類,但是結(jié)果略顯粗陋鹤耍,如果兩種方法一前一后結(jié)合使用肉迫,既能節(jié)省時間,又提高了精確性惰蜜。
//簡書的投稿推薦無疑也用到了文本分析昂拂,不過是比較簡單的文本分析算法受神。
- 信息指紋——網(wǎng)頁本身太長抛猖,儲存5000億個網(wǎng)址就要50TB,而且對字符串的查找又比較慢,所以一種算法——偽隨機數(shù)產(chǎn)生器算法就產(chǎn)生了财著,它能把任意長度的整數(shù)轉(zhuǎn)化為特定長度的隨機數(shù)联四,這樣爬蟲就能更快地識別一個網(wǎng)頁是否下載過。cookie也是一種信息指紋撑教。書中還介紹了幾種信息指紋的用法朝墩,①判斷兩個集合是否相同,②判斷集合是否基本相同伟姐。③判斷文本是否相同收苏。
- 視頻的反盜版——視頻中關(guān)鍵幀才是連續(xù)的圖像,其他幀儲存與關(guān)鍵幀的差異值愤兵,用信息指紋處理這些關(guān)鍵幀鹿霸,再比對是否相同,就知道了是否盜版秆乳。
- RSA算法——這個算法用公鑰加密信息懦鼠,而用私鑰解碼,公鑰可以公開屹堰,但是只有知道私鑰的人才能解碼肛冶,而且也不能從公鑰反推出私鑰(理論上可以,但是計算量十分巨大)扯键,這個算法幾乎可以說建立了互聯(lián)網(wǎng)安全的基礎(chǔ)睦袖,2016年圖靈獎就頒發(fā)給了在互聯(lián)網(wǎng)加密做出杰出貢獻的兩位科學(xué)家。拓展閱讀荣刑。
- 拼音輸入法的數(shù)學(xué)原理——我認為還是閱讀原文為好扣泊。
第四部分——人物專題
- 賈里尼克——作者用一篇文章介紹他,我看到的是——少年普通嘶摊,拿到MIT的全額獎學(xué)金——提出厲害的算法延蟹,在大公司IBM領(lǐng)導(dǎo)研究室,取得優(yōu)秀成果——暮年另一所大學(xué)在信息處理領(lǐng)域取得全球領(lǐng)先地位——生活簡樸叶堆。
- 阿米特·辛格博士——作者這篇文章主要介紹辛格博士做事情的哲學(xué)阱飘,先用最簡單的辦法解決80%的問題,剩下的再慢慢解決虱颗,這種做法避免了開發(fā)大而全的功能導(dǎo)致的工期過長問題沥匈,我認為在實際中是更實用的。
- 馬庫斯與他的弟子們——馬庫斯推動了統(tǒng)計方法在自然語言處理方面的應(yīng)用忘渔,建立標準語料庫高帖。另外介紹了三個他的學(xué)生的成績。
思維導(dǎo)圖
讀后感
這本書在2月25號從第三章開始看畦粮,到28號看完散址,大約兩百七十多頁乖阵,我看這么快一方面是我跳過了我都不懂的延伸閱讀部分,因為讀懂那部分必須一些我并沒有掌握的知識预麸;另一方面則是作者的講解非常的透徹瞪浸,深入淺出,即使對相關(guān)知識了解不深吏祸,也能讀懂作者的內(nèi)容对蒲。我想,我的這篇讀書筆記是斷然寫不好贡翘,因為書中最精彩的部分蹈矮,關(guān)于數(shù)學(xué)的那部分,恰恰是我不能從讀書筆記中表達出來的部分鸣驱。所以我的這篇讀書筆記含滴,是有很大的不足的,在于那些缺乏的公式和解釋丐巫。除了上面我提到的技術(shù)谈况,作者還介紹了其他的技術(shù)和數(shù)學(xué)。
其他作者介紹了的技術(shù)和數(shù)學(xué)
- 布隆過濾器
- 貝葉斯網(wǎng)絡(luò)
- 條件隨機場和文法分析
- 維特比算法
- CDMA技術(shù)
- 期望最大化算法
- 邏輯回歸模型
- 分治算法
- 人工神經(jīng)網(wǎng)絡(luò)
- 大數(shù)據(jù)
- NP問題
對于那些理科專業(yè)的學(xué)生递胧,特別是數(shù)學(xué)和計算機碑韵,這本書是非常有益的,這本書適合想了解自然語言處理的專業(yè)人士缎脾,同時祝闻,這本書也適合那些并不了解這方面知識的人們,因為作者的描寫真的做到了淺白易懂遗菠。最后联喘,我建議有興趣的朋友可以買一本《數(shù)學(xué)之美》,親自觀察數(shù)學(xué)的美麗之光辙纬。
題外話
歡迎任何想了解這本書的朋友和我交流豁遭,也歡迎指出我文章中的錯誤,良好的互動能幫助我們互相進步贺拣,: D