個(gè)人見(jiàn)解:數(shù)學(xué)起源于數(shù)猖吴,來(lái)自于對(duì)物質(zhì)世界精確的觀測(cè)摔刁,可以精確的運(yùn)算。所以數(shù)學(xué)更接近物理世界海蔽;哲學(xué)起源于人們用自己的語(yǔ)言(英語(yǔ)共屈,漢語(yǔ)……)來(lái)概括世界,所以哲學(xué)更接近生活党窜,或者說(shuō)更接近“正常人”的思考習(xí)慣趁俊。
第一章 文字和語(yǔ)言VS數(shù)字和信息
不同的文明,因?yàn)榈赜虻脑蛐倘唬瑲v史上相互隔絕 便會(huì)有不同的文字寺擂,隨著文明的融合和沖突 不同文明下的人們需要進(jìn)行交流 或者說(shuō)通信 那么翻譯的需求便產(chǎn)生了,翻譯這件事之所以能夠達(dá)成 僅僅是因?yàn)椴煌奈淖窒到y(tǒng)在記錄信息上的能力是等價(jià)的泼掠。文字只是信息的載體 而非信息本身怔软。
文字本身的載體是石頭還是紙張并不重要 它所承載的信息才是最重要的。
我們的祖先很聰明 他們發(fā)明了進(jìn)位制 也就是我們今天說(shuō)的逢十進(jìn)一
解碼的規(guī)則择镇、語(yǔ)法
在中國(guó) 解碼的規(guī)則是乘法:二百萬(wàn)=2 * 100 * 10000挡逼;
在羅馬 解碼的規(guī)則是減法:IV V VII 小數(shù)字出現(xiàn)在大數(shù)字左邊為減,右邊為加腻豌。
古印度人發(fā)明了包括0在內(nèi)的10個(gè)阿拉伯?dāng)?shù)字家坎。
將日常的白話口語(yǔ)寫(xiě)成精簡(jiǎn)的文言文本身是信道壓縮的的過(guò)程 而將文言文解釋清楚是解壓縮的過(guò)程嘱能。
在蔡倫發(fā)明紙張之前 書(shū)寫(xiě)文字是很困難的問(wèn)題 要惜墨如金。所以古文非常簡(jiǎn)潔 但非常難懂 但同時(shí)期的口語(yǔ)卻和今天的白話差別不大 語(yǔ)句較長(zhǎng)但是易懂虱疏。 這種現(xiàn)象非常符合今天信息科學(xué)(和工程)的一些基本原理惹骂,就是在通信時(shí),若信道較寬 信息不必壓縮就可以直接傳遞做瞪;而如果信道很窄 信息在傳遞前需要盡可能壓縮 然后再接收端進(jìn)行解壓縮对粪。
當(dāng)猶太學(xué)者抄完一頁(yè)《圣經(jīng)》時(shí) 需要把每一行的文字加起來(lái),看看新的校驗(yàn)碼是不是和原文相同装蓬,然后對(duì)每一頁(yè)進(jìn)行同樣的處理著拭。類(lèi)似于今天計(jì)算機(jī)和通信中校檢碼的方法。
第二章 自然語(yǔ)言處理——從規(guī)則到統(tǒng)計(jì)
語(yǔ)言的出現(xiàn)是為了人類(lèi)之間的通信牍帚。任何一種語(yǔ)言都是一種編碼的方式 而語(yǔ)言的語(yǔ)法規(guī)則時(shí)編解碼的算法儡遮。表達(dá)一種意思 就是用這種語(yǔ)言的編碼方式對(duì)頭腦中的信息做了一次編碼,編碼的結(jié)果就是一串文字暗赶。而如果對(duì)方懂得這門(mén)語(yǔ)言 他就可以用這門(mén)語(yǔ)言的解碼方法獲得說(shuō)話人要表達(dá)的信息鄙币。這就是語(yǔ)言的數(shù)學(xué)本質(zhì)
1956年的夏天 在“達(dá)特茅斯夏季人工智能研究會(huì)議”提出了人工智能這個(gè)提法。(真是可怕 六十多年前 科學(xué)家就在討論人工智能忆首、神經(jīng)網(wǎng)絡(luò)等技術(shù))該會(huì)議的一一超過(guò)10個(gè)圖靈獎(jiǎng)爱榔。這十位被稱為時(shí)20世紀(jì)it領(lǐng)域最優(yōu)秀的科學(xué)家 開(kāi)創(chuàng)了很多今天依然活躍的研究領(lǐng)域。
即使學(xué)了十年的語(yǔ)法 也不能涵蓋所有的英語(yǔ)糙及。
自然語(yǔ)言
自然語(yǔ)言通常是指一種自然地隨文化演化的語(yǔ)言详幽。英語(yǔ)、漢語(yǔ)浸锨、日語(yǔ)為自然語(yǔ)言的例子唇聘,而世界語(yǔ)則為人造語(yǔ)言,即是一種由人蓄意為某些特定目的而創(chuàng)造的語(yǔ)言柱搜。 不過(guò)迟郎,有時(shí)所有人類(lèi)使用的語(yǔ)言(包括上述自然地隨文化演化的語(yǔ)言,以及人造語(yǔ)言)都會(huì)被視為"自然"語(yǔ)言聪蘸,以相對(duì)于如編程語(yǔ)言等為計(jì)算機(jī)而設(shè)的"人造"語(yǔ)言宪肖。這一種用法可見(jiàn)于自然語(yǔ)言處理一詞中。自然語(yǔ)言是人類(lèi)交流和思維的主要工具健爬。
自然語(yǔ)言處理是人工智能中最為困難的問(wèn)題之一控乾,而對(duì)自然語(yǔ)言處理的研究也是充滿魅力和挑戰(zhàn)的。隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的廣泛應(yīng)用娜遵,蜕衡,也隨之衍生出了一系列的產(chǎn)品。相對(duì)而言设拟,截止到2012年慨仿,國(guó)外在該領(lǐng)域的研究投入和成果都相對(duì)領(lǐng)先于國(guó)內(nèi)久脯,尤其漢語(yǔ)天然就相對(duì)于其他語(yǔ)種更為復(fù)雜,更為難以分析镰吆。
基于規(guī)則的句法很快就走到了盡頭帘撰。統(tǒng)計(jì)語(yǔ)言學(xué)的出現(xiàn)使得自然語(yǔ)言處理得到重生。
基于規(guī)則的自然語(yǔ)言處理和基于統(tǒng)計(jì)的自然語(yǔ)言處理的爭(zhēng)執(zhí)持續(xù)了15年左右的原因:
1.一種新的研究方法的成熟需要很多年鼎姊。
2.需要等原有一批語(yǔ)言學(xué)家退休骡和。
老科學(xué)家可以理解為“老的科學(xué)家”和“老科學(xué)的家”兩種相赁。若是后者 他們年紀(jì)不算老 但是已經(jīng)落伍 大家必須耐心等待他們退休讓出位子相寇。畢竟不是所有人都樂(lè)意改變自己的觀點(diǎn),無(wú)論對(duì)錯(cuò)钮科。
第三章 統(tǒng)計(jì)語(yǔ)言模型
賈利尼克出發(fā)點(diǎn):一個(gè)句子是否合理 就看看它的可能性大小如何唤衫。至于可能性就用概率來(lái)衡量。
基本原理:N元模型(假設(shè)前提:句中的每個(gè)詞和前面的所有詞有關(guān))和二元模型(假設(shè)前提:句中的每個(gè)詞只和前面的一個(gè)詞有關(guān))
大數(shù)定律绵脯,只要統(tǒng)計(jì)量夠足 相對(duì)頻率就等于概率
當(dāng)N從1上升到2 再?gòu)?到3時(shí) 模型的效果上升顯著佳励。而當(dāng)模型從3到4時(shí) 效果的提升就不是很顯著了 而資源耗費(fèi)的特別快 所以 除非是不惜資源為了做到極致 很少有人使用四元以上的模型。Google的羅塞塔翻譯系統(tǒng)和語(yǔ)言搜索系統(tǒng) 使用的是四元模型 蛆挫。
訓(xùn)練數(shù)據(jù)通常是越多越好赃承。
數(shù)學(xué)的魅力就在于將復(fù)雜的問(wèn)題簡(jiǎn)單化。
第四章 談?wù)勚形姆衷~
中文分詞方法可以幫助判別英語(yǔ)單詞的邊界悴侵。
任何方法都有其局限性 統(tǒng)計(jì)語(yǔ)言模型很大程序上時(shí)依照“大眾的想法”或者“多數(shù)句子的用法” 而在特定情況下可能是錯(cuò)的瞧剖。
分詞器的選用的所謂正確的人工粉刺的數(shù)據(jù)是如何得來(lái)的。不能講一個(gè)準(zhǔn)確率在97%的分詞器就比95%的要好 只能講與人工分詞結(jié)果的吻合度稍微高一點(diǎn)而已可免。人工分詞不一樣的原因主要在于人們對(duì)詞的顆粒度的認(rèn)識(shí)問(wèn)題抓于。
最好的方法是讓一個(gè)分詞器同時(shí)支持不同層次的詞的切分。由不同的應(yīng)用自行決定采用哪個(gè)顆粒度的劃分浇借。
第五章 隱含馬爾可夫模型
語(yǔ)音識(shí)別就是聽(tīng)話的人去猜測(cè)說(shuō)話者要表達(dá)的意思捉撮。這其實(shí)就像通信中 根據(jù)接收端收到的信號(hào)去分析、理解妇垢、還原發(fā)送端傳送過(guò)來(lái)的信息巾遭。
我們平時(shí)在說(shuō)話時(shí) 腦子就是一個(gè)信息源。我們的喉嚨(聲帶)闯估、空氣 就是如電線和光纜一般的信道灼舍。聽(tīng)眾的耳朵就是接收器 而聽(tīng)到的聲音就是傳送過(guò)來(lái)的信號(hào)。根據(jù)聲學(xué)信號(hào)來(lái)推測(cè)說(shuō)話者的意思 就是語(yǔ)音識(shí)別睬愤。若接收端時(shí)一臺(tái)計(jì)算機(jī)而不是人 那么計(jì)算機(jī)要做的就是語(yǔ)音的自動(dòng)識(shí)別片仿。
第六章 信息的度量和作用
信息熵 (shang) 量化信息 解決了信息的度量問(wèn)題。
信息熵:信息是個(gè)很抽象的概念尤辱。人們常常說(shuō)信息很多砂豌,或者信息較少厢岂,但卻很難說(shuō)清楚信息到底有多少。比如一本五十萬(wàn)字的中文書(shū)到底有多少信息量阳距。通常塔粒,一個(gè)信源發(fā)送出什么符號(hào)是不確定的,衡量它可以根據(jù)其出現(xiàn)的概率來(lái)度量筐摘。概率大卒茬,出現(xiàn)機(jī)會(huì)多,不確定性锌臁圃酵;反之就大。
不確定性函數(shù)f是概率P的單調(diào)遞降函數(shù)馍管;兩個(gè)獨(dú)立符號(hào)所產(chǎn)生的不確定性應(yīng)等于各自不確定性之和郭赐,即f(P1,P2)=f(P1)+f(P2)确沸,這稱為可加性捌锭。同時(shí)滿足這兩個(gè)條件的函數(shù)f是對(duì)數(shù)函數(shù),即
在信源中罗捎,考慮的不是某一單個(gè)符號(hào)發(fā)生的不確定性观谦,而是要考慮這個(gè)信源所有可能發(fā)生情況的平均不確定性。若信源符號(hào)有n種取值:U1…Ui…Un桨菜,對(duì)應(yīng)概率為:P1…Pi…Pn豁状,且各種符號(hào)的出現(xiàn)彼此獨(dú)立。這時(shí)雷激,信源的平均不確定性應(yīng)當(dāng)為單個(gè)符號(hào)不確定性-logPi的統(tǒng)計(jì)平均值(E)替蔬,可稱為信息熵,即
式中對(duì)數(shù)一般取2為底屎暇,單位為比特承桥。但是,也可以取其它對(duì)數(shù)底根悼,采用其它相應(yīng)的單位凶异,它們間可用換底公式換算。
直到1948年挤巡,香農(nóng)提出了“信息熵”的概念剩彬,才解決了對(duì)信息的量化度量問(wèn)題。信息熵這個(gè)詞是C.E.香農(nóng)從熱力學(xué)中借用過(guò)來(lái)的矿卑。熱力學(xué)中的熱熵是表示分子狀態(tài)混亂程度的物理量喉恋。香農(nóng)用信息熵的概念來(lái)描述信源的不確定度。
信息論之父克勞德·艾爾伍德·香農(nóng)第一次用數(shù)學(xué)語(yǔ)言闡明了概率與信息冗余度的關(guān)系。
《博弈圣經(jīng)》
信息熵:信息的基本作用就是消除人們對(duì)事物的不確定性轻黑。多數(shù)粒子組合之后糊肤,在它似像非像的形態(tài)上押上有價(jià)值的數(shù)碼,具體地說(shuō)氓鄙,這就是一個(gè)在博弈對(duì)局中現(xiàn)象信息的混亂馆揉。
香農(nóng)指出,它的準(zhǔn)確信息量應(yīng)該是
-(p1*log(2,p1) + p2 * log(2,p2) +《独埂... +p32 *log(2,p32))升酣,
信息熵
其中,p1态罪,p2 噩茄, ...向臀,p32 分別是這 32 個(gè)球隊(duì)奪冠的概率巢墅。香農(nóng)把它稱為“信息熵” (Entropy)诸狭,一般用符號(hào) H 表示券膀,單位是比特。
有興趣的讀者可以推算一下當(dāng) 32 個(gè)球隊(duì)奪冠概率相同時(shí)驯遇,對(duì)應(yīng)的信息熵等于五比特芹彬。有數(shù)學(xué)基礎(chǔ)的讀者還可以證明上面公式的值不可能大于五。對(duì)于任意一個(gè)隨機(jī)變量 X(比如得冠軍的球隊(duì))叉庐,它的熵定義如下:
變量的不確定性越大舒帮,熵也就越大,把它搞清楚所需要的信息量也就越大陡叠。
信息熵是信息論中用于度量信息量的一個(gè)概念玩郊。一個(gè)系統(tǒng)越是有序,信息熵就越低枉阵;
反之译红,一個(gè)系統(tǒng)越是混亂,信息熵就越高兴溜。所以侦厚,信息熵也可以說(shuō)是系統(tǒng)有序化程度的一個(gè)度量。
一條信息的信息量和它的不確定性有著直接的關(guān)系拙徽。
比如我們要搞清楚意見(jiàn)非常不確定的事情 或是我們一無(wú)所知的事情 需要了解大量的信息刨沦。相反 如果我們對(duì)一件事已經(jīng)有了較多的了解 那么就不需要太多的信息就能把它搞清楚。所以 從這個(gè)角度看 信息量就等于不確定的多少膘怕。
香農(nóng)用“比特”(bit)這個(gè)概念來(lái)度量信息量想诅。
冗余度:
如果一本書(shū)重復(fù)的內(nèi)容很多 它的信息量就小 冗余度就大.
簡(jiǎn)單地說(shuō),所謂冗余度,就是從安全角度考慮多余的一個(gè)量来破,這個(gè)量就是為了保障儀器裁眯、設(shè)備或某項(xiàng)工作在非正常情況下也能正常運(yùn)轉(zhuǎn)。目前大多現(xiàn)代產(chǎn)品和工程設(shè)計(jì)中都應(yīng)用了冗余度這個(gè)思想和理論讳癌。在許多醫(yī)療單位中藥品存量不足穿稳,衛(wèi)生材料存量不夠,一遇突發(fā)事件晌坤,就會(huì)造成缺貨逢艘,造成漲價(jià)風(fēng)波,影響社會(huì)安定骤菠。在我們的醫(yī)院中它改,由于各項(xiàng)費(fèi)用都與經(jīng)濟(jì)效益掛鉤,醫(yī)療設(shè)備等衛(wèi)生裝備冗余度很不夠商乎,基本上只能按平時(shí)的正常運(yùn)轉(zhuǎn)設(shè)置央拖,甚至有的都沒(méi)達(dá)到。一遇突發(fā)事件鹉戚,這點(diǎn)裝備就顯得嚴(yán)重不足鲜戒。
冗余度,通俗的講就是數(shù)據(jù)的重復(fù)度抹凳。在一個(gè)數(shù)據(jù)集合中重復(fù)的數(shù)據(jù)稱為數(shù)據(jù)冗余
在數(shù)據(jù)傳輸中遏餐,由于衰減或干擾會(huì)使數(shù)據(jù)代碼發(fā)生突變,此時(shí)就要提高數(shù)據(jù)代碼的抗干擾能力.
這必須在原二進(jìn)制代碼長(zhǎng)度的基礎(chǔ)上增加幾位二進(jìn)制代碼的長(zhǎng)度赢底,使相應(yīng)數(shù)據(jù)具有一定的冗余度失都,也稱做富裕度.
在地理信息系統(tǒng)中,數(shù)據(jù)冗余度的計(jì)算公式是:
R=1-(Q/mn)
式中:Q為相鄰屬性值變化次數(shù)的累加和
m為行數(shù)
n為列數(shù)
漢語(yǔ)在所有語(yǔ)言中冗余度是相對(duì)小的幸冻。一本英文書(shū) 翻譯成漢語(yǔ) 若字體大小相同 那么中譯本一般都會(huì)薄很多粹庞。漢語(yǔ)相對(duì)是比較簡(jiǎn)潔的語(yǔ)言。
信息是消除系統(tǒng)不確定性的唯一辦法 (在沒(méi)有獲得任何信息前 一個(gè)系統(tǒng)就像是一個(gè)黑盒子 引入信息 就可以了解黑盒子系統(tǒng)的內(nèi)部結(jié)構(gòu))
第7章 賈利尼克和現(xiàn)代語(yǔ)言處理
每當(dāng)弗萊德和我談?wù)撈鸶髯陨倌陼r(shí)的教育時(shí)洽损,我們都同意這樣幾個(gè)觀點(diǎn)庞溜。首先 小學(xué)生和中學(xué)生其實(shí)沒(méi)必要花這么多時(shí)間讀書(shū) 而他們的社會(huì)經(jīng)驗(yàn)、生活能力以及在那時(shí)樹(shù)立起的志向?qū)椭麄兊囊簧眯ィ诙? 中學(xué)階段可以花很多時(shí)間比同伴多讀的課程 在大學(xué)以后用非常短的時(shí)間就可以讀完 因?yàn)樵诖髮W(xué)階段 人的理解能力要強(qiáng)得多强缘,舉個(gè)例子 在中學(xué)需要花500個(gè)小時(shí)才能學(xué)會(huì)的內(nèi)容 在大學(xué)可能花100個(gè)小時(shí)就夠了。一次 一個(gè)學(xué)生在中小學(xué)階段建立的那一點(diǎn)點(diǎn)優(yōu)勢(shì)在大學(xué)很快就會(huì)喪失殆盡不傅。第三 學(xué)習(xí)(和教育)是一個(gè)人一輩子的過(guò)程 很多成績(jī)好的亞裔學(xué)生進(jìn)入名校后表現(xiàn)明顯不如那些因興趣而讀書(shū)的美國(guó)同伴 因?yàn)榍罢卟粩嘧x書(shū)的動(dòng)力不足旅掂。第四 書(shū)本的內(nèi)容可以早學(xué) 也可以晚學(xué) 但是錯(cuò)過(guò)了成長(zhǎng)階段卻是無(wú)法彌補(bǔ)過(guò)來(lái)的。(因此 少年班的做法不可确萌ⅰ)
我一直認(rèn)為 一個(gè)人想要在自己的領(lǐng)域中做到世界一流 他的周?chē)仨氂蟹浅6嗟囊涣魅宋铩?br> 大多數(shù)時(shí)候 很多的歷史偶然性背后有著它必然的原因 統(tǒng)計(jì)自然語(yǔ)言處理誕生于IBM看似有些偶然 但是當(dāng)時(shí)只有IBM才有這樣的計(jì)算能力 又有物質(zhì)條件同時(shí)聚集起一大批世界上最聰明的頭腦隐锭。
賈利尼克從頭做起 他主要做了兩件大事 兩件小事。兩件大事是 首先 從美國(guó)正讀主管研究的部門(mén)里申請(qǐng)到了很多研究經(jīng)費(fèi) 然后每年夏天 他用一部分驚飛 邀請(qǐng)世界上20-30名頂級(jí)的科學(xué)家和學(xué)生到CLSP一起工作 使得CLSP成為世界上語(yǔ)音和語(yǔ)言處理的中心之一皿渗。 兩件小事是指:首先他招募了一批當(dāng)時(shí)很有潛力的年輕學(xué)者 利用自己的影響力 在暑期把他們派到世界上最好的公司去實(shí)習(xí) 通過(guò)學(xué)生的優(yōu)異表現(xiàn) 樹(shù)立起CLSP在培養(yǎng)人才方面的聲譽(yù)。
第8章 布爾代數(shù)和搜索引擎的索引
文獻(xiàn)索引和布爾運(yùn)算的關(guān)系典勇。對(duì)于一個(gè)用戶輸入的關(guān)鍵詞,搜索引擎要判斷每篇文獻(xiàn)是否含有這個(gè)關(guān)鍵詞 若一篇文獻(xiàn)中含有它 我們相應(yīng)的就給這篇文獻(xiàn)一個(gè)邏輯值——真(TRUE或1) 否則 給一個(gè)邏輯值——假《E俊(FALSE或0)割笙。
布爾代數(shù)對(duì)于數(shù)學(xué)的意義等同于量子力學(xué)對(duì)于物理學(xué)的意義 它們將我們對(duì)世界的認(rèn)識(shí)從連續(xù)狀態(tài)擴(kuò)展到離散狀態(tài)。
搜索引擎在零點(diǎn)零幾秒鐘找到成千上萬(wàn)甚至上億的搜索結(jié)果眯亦。暗藏的技巧就是建索引 可以聯(lián)系到圖書(shū)館的索引 基于數(shù)據(jù)庫(kù)的 至今如此 數(shù)據(jù)庫(kù)的查詢語(yǔ)句(SQL)支持各種負(fù)責(zé)的邏輯組合 但背后的基本原理都是基于布爾運(yùn)算的伤溉。
當(dāng)索引特別大的時(shí)候 這些索引需要通過(guò)分布式的方式存儲(chǔ)到不同的服務(wù)器上,普遍的做法就是根據(jù)王爺?shù)男蛱?hào)將索引分成很多份 分別存儲(chǔ)在不同的服務(wù)器中妻率。每當(dāng)接受一個(gè)查詢時(shí) 這個(gè)查詢就被分到=發(fā)到許許多多服務(wù)器中 這些服務(wù)器同時(shí)并行處理用戶請(qǐng)求 并把結(jié)果送到主服務(wù)器進(jìn)行合并處理 最后將結(jié)果返回給用戶乱顾。
“(人們)發(fā)覺(jué)真理在形式上從來(lái)是簡(jiǎn)單的 而不是復(fù)雜和含混的」玻”
第9章 圖論和網(wǎng)絡(luò)爬蟲(chóng)
這里來(lái)介紹圖論和互聯(lián)網(wǎng)自動(dòng)下載工具網(wǎng)絡(luò)爬蟲(chóng) 之間的關(guān)系走净。
圖論的起源可追溯到大數(shù)學(xué)家歐拉誕生的那個(gè)年代。
廣度優(yōu)先搜索
深度優(yōu)先搜索
互聯(lián)網(wǎng)可以看成一張大圖——可以把每一個(gè)網(wǎng)頁(yè)當(dāng)作一個(gè)節(jié)點(diǎn) 把那些超鏈接當(dāng)作連接網(wǎng)絡(luò)的弧孤里。
有了超鏈接 我們可以從任何一個(gè)網(wǎng)頁(yè)出發(fā) 用圖的遍歷算法 自動(dòng)的訪問(wèn)到每一個(gè)網(wǎng)頁(yè)并把它們存起來(lái) 完成這個(gè)功能的程序叫做網(wǎng)絡(luò)爬蟲(chóng) 或者在一些文獻(xiàn)中稱為“機(jī)器人”伏伯。
假定從一家門(mén)戶網(wǎng)站的首頁(yè)觸發(fā) 先下載這個(gè)網(wǎng)頁(yè) 也就知道了這家猛虎網(wǎng)站首頁(yè)所直接鏈接的全部網(wǎng)頁(yè) 諸如雅虎郵件、雅虎財(cái)經(jīng) 雅虎新聞等扭粱。接下來(lái)訪問(wèn)舵鳞、下載并分析這家門(mén)戶網(wǎng)站的郵件等網(wǎng)頁(yè) 又能找到其他相連的網(wǎng)頁(yè)。讓計(jì)算機(jī)不停的做下去 就能下載整個(gè)的互聯(lián)網(wǎng)琢蛤。當(dāng)然也要記錄哪個(gè)網(wǎng)頁(yè)下載過(guò)了 在網(wǎng)絡(luò)爬蟲(chóng)中 使用一個(gè)稱為“哈希表”的列表來(lái)記錄。
定理:如果一個(gè)圖能夠從一個(gè)頂點(diǎn)出發(fā) 每條邊不重復(fù)的遍歷一遍回到這個(gè)頂點(diǎn) 那么每一頂點(diǎn)的度必須為偶數(shù)抛虏。
搜索引擎的網(wǎng)絡(luò)爬蟲(chóng)問(wèn)題更應(yīng)該定義為“如何在有限時(shí)間內(nèi)最多的爬下最重要的網(wǎng)頁(yè)”博其。顯然各個(gè)網(wǎng)站最重要的應(yīng)該是它的首頁(yè)。如果爬蟲(chóng)特別小 只能下載非常有限的網(wǎng)頁(yè) 那么應(yīng)該下載的是所有網(wǎng)站的首頁(yè) 如果把爬蟲(chóng)再擴(kuò)大些 應(yīng)該爬下從首頁(yè)直接鏈接的網(wǎng)頁(yè)迂猴。在這個(gè)前提下 顯然BFS(廣度優(yōu)先)明顯優(yōu)于DFS(深度優(yōu)先)慕淡。
在圖論出現(xiàn)后的很長(zhǎng)一段時(shí)間 現(xiàn)實(shí)世界中圖的大小都是在幾千個(gè)街店以下的規(guī)模。那時(shí)候圖的遍歷是一件很簡(jiǎn)單的事情 因此再工業(yè)界沒(méi)有多少人專(zhuān)門(mén)研究這個(gè)問(wèn)題沸毁。過(guò)去 即使是計(jì)算機(jī)專(zhuān)業(yè)的學(xué)生 大部分人也體會(huì)不到這個(gè)領(lǐng)域的研究有什么實(shí)際用處 因?yàn)榇蠹以诠ぷ髦锌赡芤惠呑佣加貌坏剿?br> 很多數(shù)學(xué)方法就是這樣 看上去沒(méi)有什么實(shí)際用途 但是隨著時(shí)間的推移會(huì)一下子派上大用場(chǎng)峰髓。這恐怕是世界上還有很多人畢生研究數(shù)學(xué)的原因。
第10章 PageRank——Google的民主表決式網(wǎng)頁(yè)排名技術(shù)
對(duì)于大部分用戶的查詢 今天的搜索引擎 都會(huì)返回成千上萬(wàn)條結(jié)果 那么應(yīng)該如何排序 把用戶最想看到的結(jié)果排在前面呢息尺?這個(gè)問(wèn)題很大程度上決定了搜索引擎的質(zhì)量携兵。
總的來(lái)說(shuō) 對(duì)于一個(gè)特定的查詢 搜索結(jié)果的排名取決于兩組信息 關(guān)于網(wǎng)頁(yè)的質(zhì)量信息(quality),和這個(gè)查詢與每個(gè)網(wǎng)頁(yè)的相關(guān)性信息(relevance)搂誉。這一章介紹衡量網(wǎng)頁(yè)質(zhì)量的方法 下一張介紹度量搜索關(guān)鍵詞和網(wǎng)頁(yè)相關(guān)性的方法徐紧。
PageRank的核心思想:在互聯(lián)網(wǎng)上 如果一個(gè)網(wǎng)頁(yè)被很多其他網(wǎng)頁(yè)所鏈接 說(shuō)明它受到普遍的承認(rèn)和信賴 那么它的排名就高。于是要給這些鏈接以較大的權(quán)重。
網(wǎng)頁(yè)排名的高明之處在于它把整個(gè)互聯(lián)網(wǎng)當(dāng)作一個(gè)整體來(lái)對(duì)待并级。
第11章 如何確定網(wǎng)頁(yè)和查詢的相關(guān)性
如何度量網(wǎng)頁(yè)和查詢的相關(guān)性
需要根據(jù)網(wǎng)頁(yè)的長(zhǎng)度 對(duì)關(guān)鍵詞的次數(shù)進(jìn)行歸一化 也就是用關(guān)鍵詞的次數(shù)除以網(wǎng)頁(yè)的總字?jǐn)?shù)拂檩。我們把這個(gè)商稱為“關(guān)鍵詞的頻率”。
度量網(wǎng)頁(yè)和查詢的相關(guān)性 有一個(gè)較簡(jiǎn)單的方法 就是直接使用各個(gè)關(guān)鍵詞在網(wǎng)頁(yè)中出現(xiàn)的總詞頻嘲碧。
一個(gè)小漏洞 “的”這種類(lèi)型的詞占了詞頻的80%以上 而他對(duì)確定網(wǎng)頁(yè)的主題幾乎沒(méi)什么用處稻励。我們稱這種詞為“停止詞”。也就是說(shuō) 在度量相關(guān)性時(shí) 不應(yīng)考慮它們的頻率愈涩。
權(quán)重的設(shè)定必須滿足下面兩個(gè)條件:
1.一個(gè)詞預(yù)測(cè)主題的能力越強(qiáng) 權(quán)重越大 反之 權(quán)重越小钉迷。
2.停止詞的權(quán)重為0.
第12章 地圖和本地搜索的最基本技術(shù)——有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)劃
智能手機(jī)的定位和導(dǎo)航功能 里面的關(guān)鍵技術(shù)只有三個(gè):第一時(shí)利用衛(wèi)星定位;第二是地址的識(shí)別钠署;第三 根據(jù)用戶輸入的起點(diǎn)和終點(diǎn) 在地圖上規(guī)劃最短路線或者最快路線糠聪。
一個(gè)有限的狀態(tài)機(jī)是一個(gè)特殊的有向圖 包括一些狀態(tài)(節(jié)點(diǎn))和連接這些狀態(tài)的有向弧。
有限狀態(tài)機(jī)(英語(yǔ):finite-state machine谐鼎,縮寫(xiě):FSM)又稱有限狀態(tài)自動(dòng)機(jī)舰蟆,簡(jiǎn)稱狀態(tài)機(jī),是表示有限個(gè)狀態(tài)以及在這些狀態(tài)之間的轉(zhuǎn)移和動(dòng)作等行為的數(shù)學(xué)模型狸棍。
使用有限狀態(tài)機(jī)識(shí)別地址 關(guān)鍵要解決兩個(gè)問(wèn)題 即通過(guò)一些有效的地址建立狀態(tài)機(jī) 以及給定一個(gè)有限狀態(tài)機(jī)后 地址字串的匹配算法身害。
第14章 余弦定理和新聞的分類(lèi)
TF-IDF
英語(yǔ):term frequency–inverse document frequency)
向量距離的度量
若兩個(gè)新聞屬于同一類(lèi) 它們的特征向量在某幾個(gè)維度的值都比較大 而在其他維度的值就比較小。
可以通過(guò)計(jì)算兩個(gè)向量的夾角來(lái)判斷對(duì)應(yīng)的新聞主題的接近程度草戈。余弦=1時(shí)塌鸯,兩向量夾角為零 兩條新聞完全相同。
第15章 信息指紋及其應(yīng)用
只要產(chǎn)生隨機(jī)數(shù)的算法足夠好 就能保證幾乎不可能有兩個(gè)字符串的指紋相同 就如同不可能有兩個(gè)人的指紋相同一樣唐片。
首先 將這個(gè)字符串看成是一個(gè)特殊的 長(zhǎng)度很長(zhǎng)的整數(shù)丙猬。一個(gè)產(chǎn)生信息指紋的關(guān)鍵算法:偽隨機(jī)數(shù)產(chǎn)生器算法 通過(guò)它能將任意很長(zhǎng)的整數(shù)轉(zhuǎn)換成特定長(zhǎng)度的偽隨機(jī)數(shù)。
信息指紋的用途遠(yuǎn)不止網(wǎng)址的消重 它的孿生兄弟是密碼费韭。信息指紋的一個(gè)特征是不可逆性 也就是無(wú)法根據(jù)信息指紋推出原有信息茧球。這種性質(zhì) 正是網(wǎng)絡(luò)加密所需要的。
這本書(shū)的目的是講“道”星持,而不是去講多么具體的“術(shù)”抢埋。因?yàn)楹芏嗑唧w的技術(shù)很快就會(huì)變得落伍。追求“術(shù)”的人督暂,一輩子都會(huì)很辛苦揪垄。只有掌握了技術(shù)的本質(zhì)和精髓,做事才能游刃有余逻翁。
阿米特·辛格饥努。他是美國(guó)工程院院士,谷歌公司內(nèi)的一位技術(shù)大神卢未。辛格做事情的哲學(xué)肪凛,是先幫助用戶解決80%的問(wèn)題堰汉,再慢慢解決剩下20%的問(wèn)題,這就讓他總是能在較短的時(shí)間里較好的解決問(wèn)題伟墙。阿米特·辛格還奉行簡(jiǎn)單的哲學(xué)翘鸭,他認(rèn)為最簡(jiǎn)單的東西往往是最好的。因?yàn)樗J(rèn)為越簡(jiǎn)單的事情越容易解釋道理戳葵,這樣可以方便查找錯(cuò)誤就乓。