第一章等龙、 文字和語言vs數(shù)字和信息
簡要介紹了語言和文字的發(fā)展過程
第二章到旦、 自然語言處理
在上世紀50年代到70年代匆赃,科學家們都想用人們理解語言的方法去讓電腦進行自然語言處理北戏。70年代到90年代之間人們在用語法規(guī)則和統(tǒng)計學進行自然語言處理之間爭論不休师郑,直到90年代之后环葵,統(tǒng)計學徹底占據(jù)了上風。
第三章宝冕、 統(tǒng)計語言模型
對于一句話张遭,因為自然語言是上下文相關的,所以要計算一句句子中所有詞的概率積地梨,如果夠大菊卷,那么這句話正常的可能性極高。但是計算每個詞的概率很困難宝剖,因為每個詞出現(xiàn)的概率和前N個詞相關洁闰,但是N太大有時不好算概率,馬爾科夫就提出每個詞的概率只參考前一個詞万细,那么就好算多了扑眉。一般只參考前一個詞太少,3個比較合適,google也只用了4個襟雷。
但是有時候一個詞在語料庫中沒有,而我們又不能說它的出現(xiàn)概率為0仁烹,所以就要進行處理耸弄,這里用到了古德-圖靈的方法(在統(tǒng)計中相信可靠的統(tǒng)計數(shù)據(jù),而對不可信的統(tǒng)計數(shù)據(jù)打折扣卓缰,同時將折扣出來的那一小部分概率給予未看見的事件)计呈。實際運用時,對于每個詞的概率征唬,如果相對前一個詞出現(xiàn)的頻度大于一個閾值捌显,不打折扣,小于閾值总寒,打折扣扶歪,再把多出來的概率賦予未看見的事件。
對于語料的選取摄闸,在哪個領域搜索就使用哪個領域的數(shù)據(jù)進行訓練善镰。比如搜索網(wǎng)頁,雖然網(wǎng)頁上夾雜著噪音和錯誤年枕,也不能使用新聞稿作為語料炫欺。對于噪音和錯誤,成本不高的能過濾的就進行處理熏兄。
第四章品洛、 談談分詞
最容易的分詞方法是查字典,遇到字典有的詞就標注出來摩桶,并與最長的詞匹配(上海大學)桥状,這么做能解決70%以上的問題,但是有很多歧義性的問題解決不了典格。統(tǒng)計語言模型分詞的方法是把句子按照可能的拆分岛宦,對每種拆分計算概率。
分詞的不一致性分為錯誤和顆粒度不一致耍缴。錯誤:比如“北京大學生”分成“北京大學-生”不合適(越界型錯誤)砾肺,“賈里尼克”分成四個字(覆蓋型錯誤)。顆粒度不一致防嗡,“清華大學”分成“清華大學”或“清華”+“大學”变汪,這種顆粒度不一致不作為錯誤。
第五章蚁趁、 隱含馬爾可夫模型
自然語言處理可以理解為通信的發(fā)送和接受所要進行的編碼解碼裙盾。
隱含馬爾可夫模型把計算可能的編碼解碼問題轉換成了求概率的問題,使用鮑姆-韋爾奇算法(訓練算法)和維特比算法(解碼算法)就可以使用這個模型了。
第六章番官、信息的度量和作用
信息熵指信息的不確定性庐完,不確定性越大,熵越大徘熔∶徘互信息指的是兩個隨機事件的相關性,互信息取值在0-1之間酷师,無關為0讶凉,完全相關為1。相對熵衡量兩個取值為整數(shù)的函數(shù)的相似性山孔,可以用來衡量文章的相似度懂讯,詞之間的相似度。
第七章台颠、 賈里尼克和現(xiàn)代語言處理
賈里尼克很厲害褐望,把通信的方法運用到了自然語言處理上,他在約翰·霍普金斯大學設立的實驗室很強蓉媳。
第八章譬挚、 布爾代數(shù)和搜索引擎
搜索的本質(zhì)是:自動下載盡可能多的網(wǎng)頁;建立快速有效的索引酪呻;根據(jù)相關性對網(wǎng)頁進行公平準確的排序(下載减宣,索引,排序)
第九章玩荠、 圖論和網(wǎng)絡爬蟲
構建爬蟲的要點:
1漆腌、構建爬蟲要考慮用BFS還是DFS
目標是在有限的時間里最多的爬下最重要的網(wǎng)頁,阶冈,在最極端情況下闷尿,爬蟲很小,那么只能爬每個網(wǎng)站的首頁而放棄這些網(wǎng)頁里的鏈接女坑,所以原理上用BFS
但是因為爬一個網(wǎng)站需要建立連接(三次握手填具,四次揮手),這個時間也要算上匆骗,所以在BFS的時候適當?shù)募尤胍恍〥FS比較合適劳景,,所以要建立一個調(diào)度系統(tǒng)來判斷優(yōu)先級碉就。
2盟广、頁面的分析和URL的提取
頁面的分析要看網(wǎng)頁的代碼是不是容易分析
3、URL表(用于記錄網(wǎng)頁是否被爬過)
因為這張表很大瓮钥,所以要分配給很多服務器執(zhí)行筋量,比較好的方法一般用到了兩個技術:
(1)給每臺服務器明確分工烹吵,,根據(jù)URL分配給對應的服務器
(2)批處理桨武,每次向散列表發(fā)送一大批詢問肋拔,更新一大批散列表內(nèi)容,減少通信次數(shù)
第十章呀酸、 PageRank
信息檢索課上過只损,懂的。
第十一章七咧、 如何確定網(wǎng)頁和查詢的相關性
主要是基于TF-IDF,信息檢索課上過叮叹,懂的艾栋。
第十二章、 有限狀態(tài)機和動態(tài)規(guī)劃
地圖上地址的識別使用有限狀態(tài)機蛉顽,導航使用動態(tài)規(guī)劃求最短路徑
第十三章蝗砾、 Google AK-47的設計者
阿米特·辛格致力于簡單的搜索解決方案,比如如果暫時只能完成80%的提升幅度携冤,那么放棄20%的提升留作以后改進也是可以的悼粮,免得一開始就想做大而全的方案導致整個工程無法完成。另外曾棕,他有一個很好的習慣扣猫,就是所有的搜索算法修改都要講出為什么好的理由,從而讓一切都變得有據(jù)可依翘地,講不清原理的算法改進不采用申尤。
第十四章、 余弦定理和新聞分類
兩篇文章的相似性可以根據(jù)他們TF-IDF所化向量的余弦來求得衙耕,昧穿,這個想法真的是巧妙。另外橙喘,對于計算大數(shù)據(jù)下的向量余弦时鸵,有幾個可以簡化的地方,向量長度不需要重復計算厅瞎;只考慮向量中的非零元素饰潜;刪除虛詞;
第十五章磁奖、 矩陣運算和文本處理中的兩個分類問題
余弦求相似性的運算在文本很多的情況下計算量很大囊拜,很耗時,比搭,要一次性把所有新聞的相關性求出來冠跷,可以使用矩陣運算中的奇異值分解南誊。
第十六章、 信息指紋及其應用
判斷一段文本是否相同可以使用信息指紋(一段不太長的隨機數(shù))蜜托,信息指紋的生成方法很簡單抄囚,先把文本轉成數(shù)字,然后使用偽隨機數(shù)產(chǎn)生器算法(平方取中間算法等)橄务,如果兩段文本相同幔托,那么信息指紋也相同。如果文本大部分相同怎么辦蜂挪,可以使用相似哈希重挑。另外,對于視頻的相似性棠涮,因為每30幀中有一幀是關鍵幀谬哀,其他幀都和這幀差異很小,所以取得一系列關鍵幀后求信息指紋即可严肪。
第十七章史煎、 談談密碼學的數(shù)學原理
RSA加密算法
第十八章、 搜索引擎反作弊
用通信模型對于反作弊也有用
(1)從信息源出發(fā)驳糯,加強通信(編碼)自身的抗干擾能力
(2)從傳輸來看篇梭,過濾掉噪音,還原信息
在使用了PageRank算法之后酝枢,作弊者就想用大量鏈接指向同一個網(wǎng)站來提高這個網(wǎng)站的排名恬偷,但是導向這個網(wǎng)站的那一堆網(wǎng)站出鏈向量余弦距離接近1,這就說明都是同一個人建的帘睦,就是為了提高排名喉磁。
另外還可以利用圖論的知識,在圖中個官脓,幾個節(jié)點兩兩相互連接协怒,那么很有可能是作弊的,為了提高排名卑笨。
搜索引擎的目的有兩個孕暇,一個是導航,另一個是查找信息赤兴,但是搜索引擎也不能保證信息的權威性和準確性妖滔。怎么解決吶?有一個思路桶良,比如提及吸煙的危害座舍,與他一起出現(xiàn)的機構,如果出現(xiàn)頻次很高陨帆,一般就更權威曲秉,當然采蚀,這需要對每句句子進行句法分析,工作量很大承二,Google的句法分析器足夠快且服務器夠多才辦到榆鼠。
第十九章、 談談數(shù)學模型的重要性
1亥鸠、一個正確的數(shù)學模型應當在形式上是簡單的妆够。
2、一個正確的模型一開始可能還不如一個精雕細琢過的錯誤模型负蚊,但只要大方向是對的神妹,就應該堅持下去。
3家妆、大量準確的數(shù)據(jù)對研發(fā)很重要
4灾螃、正確的模型也可能受噪音干擾,而顯得不準確:這時不因該用一種湊合的修正方法彌補揩徊,而是要找到噪音的根源,這也許通往重大的發(fā)現(xiàn)嵌赠。
第二十章塑荒、 不要把雞蛋放到一個籃子里
最大熵原理:對一個隨機事件的概率分布進行預測時,我們的預測應當滿足全部已知的條件姜挺,而對未知的情況不要做任何主觀假設齿税。
另外,對于任何一組不自相矛盾的信息炊豪,最大熵模型存在凌箕,而且唯一,是以指數(shù)形式展示的词渤。
第二十一章牵舱、 拼音輸入法的數(shù)學原理
相比類似五筆輸入法的拆分字結構,拼音輸入法雖然鍵多缺虐,但是減少了思維的停頓芜壁,所以更合適,也不慢高氮。另外慧妄,拼音轉漢字的算法類似最短路徑算法,使用了動態(tài)規(guī)劃剪芍,輸入法是一個將拼音串變到漢字串的轉換器塞淹。
第二十二章、 自然語言處理的教父馬庫斯和他的優(yōu)秀弟子們
馬庫斯最大的貢獻是建立了LDC語料庫罪裹,另外培養(yǎng)出了很多優(yōu)秀的學生饱普。做事情有兩種可以成功的方法运挫,要么追求完美,完善細節(jié)费彼,要么以簡為美滑臊,簡單有效。
第二十三章箍铲、 布隆過濾器
把一個email地址通過8個隨機數(shù)生成器生成8個信息指紋后再通過一個隨機數(shù)生成器生成八個自然數(shù)雇卷,然后在一串全是0的字符串中把相應數(shù)字位置為1.那么以后遇到垃圾郵件直接就可以判斷郵箱了,也很節(jié)省存儲空間颠猴,不過可能有一點誤判关划。
第二十四章、 馬爾可夫鏈的拓展
貝葉斯網(wǎng)絡是加權的有向圖翘瓮,是馬爾可夫鏈的拓展贮折,用于文本分類
第二十五章、 條件隨機場文法分析及其他
馬爾可夫鏈的拓展资盅,無向圖调榄,用于句法分析,用于拼接出合理的句子呵扛,還有也可以一定概率上預測未來發(fā)生的事件(要有很大的訓練數(shù)據(jù)量)每庆,美國警方就用這個達到有針對性的在某些區(qū)域防范某些犯罪。
第二十六章今穿、 維特比和維特比算法
本質(zhì)上是動態(tài)規(guī)劃求最短路徑缤灵。
第二十七章、 上帝的算法-期望最大算法
期望最大化算法屬于EM算法蓝晒。根據(jù)現(xiàn)有模型腮出,計算各個觀測數(shù)據(jù)輸入到模型中的計算結果,這個過程稱為期望值計算過程(E過程)芝薇,重新計算模型參數(shù)胚嘲,以最大化期望值,稱為最大化過程(M過程)洛二。EM算法對于凸函數(shù)能得到全局最優(yōu)解慢逾,然而文本分類不是凸函數(shù),只能得到局部最優(yōu)解灭红。
用于文本分類就是一開始隨機選定一些點作為文本分類的各個中心點侣滩,再針對每個點選出最近的點進行歸類,產(chǎn)生很多的歸類劃分变擒,但是這種劃分肯定效果很差君珠,因為是隨機選的中心點。然后娇斑,對于每塊劃分策添,計算它的中心作為新的中心點(之前分類的時候只是算了最近點材部,不代表隨機選的點是中心點),然后再歸類唯竹,如此循環(huán)往復直到收斂乐导,就完成了歸類。
第二十八章浸颓、 邏輯回歸和搜索廣告
搜索廣告的廣告點擊率可以使用邏輯回歸計算物臂,基本上就是對于每個可能的影響因素,乘以對應的參數(shù)后相加得到一個值产上,和最大熵函數(shù)很類似棵磷。至于參數(shù)的計算,因為它是一個一層的人工神經(jīng)網(wǎng)絡晋涣,所以所有訓練人工神經(jīng)網(wǎng)絡的方法都適用仪媒。
第二十九章、 各個擊破的算法和Google云計算基礎
把大的問題拆分成小的問題進行解決后合并結果谢鹊。
第三十章算吩、 Google大腦和人工神經(jīng)網(wǎng)絡
不容易講清楚,基本來說佃扼,人工神經(jīng)網(wǎng)絡相當于一個分類器偎巢,很智能的分類器。
第三十一章松嘶、 大數(shù)據(jù)的威力
大數(shù)據(jù)的作用很大