搜索引擎最初階段:
- 利用網(wǎng)頁爬蟲進行抓取吗冤,通過網(wǎng)頁中的鏈接層層深入又厉,對網(wǎng)頁去掉Tag后進行分詞九府,保存每個單詞在網(wǎng)頁中的位置……查詢時允許多單詞,只有所有單詞都出現(xiàn)的網(wǎng)頁才被搜索出來馋没。沒有對搜索的結(jié)果進行排序昔逗,采用的是被檢索時候的自然排序。
基于網(wǎng)頁內(nèi)容的簡單的排序(Content-Based Ranking):
- 單詞頻度(Word frequency)
位于查詢條件中的單詞在文章中出現(xiàn)的次數(shù)越多篷朵,說明文檔的相關度越高 - 文檔位置(Document location)
搜索單詞在網(wǎng)頁中的位置勾怒,通常,如果一個網(wǎng)頁與待搜索的單詞相關声旺,則該單詞就更有可能在靠近網(wǎng)頁開始處的位置出現(xiàn)笔链,或者甚至出現(xiàn)在標題中 - 單詞距離(Word distance)
如果查詢條件中有多個單詞,則它們在文檔中出現(xiàn)位置應該考的很近
利用外部回指鏈接(Inbound Link)
- 簡單計數(shù)(Simple Count)
在每個網(wǎng)頁上統(tǒng)計鏈接的數(shù)目腮猖,并將鏈接總數(shù)作為針對網(wǎng)頁的度量鉴扫,科研論文的評價就經(jīng)常采用這樣的方式 - PageRank
- PageRank算法有Google創(chuàng)始人Larry Page發(fā)明,基于這一思路的各種變體已被所有大型搜索引擎采用
- 該算法為每個網(wǎng)頁都賦予了一個指示網(wǎng)頁重要程度的評價值
- 網(wǎng)頁的重要性是依據(jù)指向該網(wǎng)頁的所有其他網(wǎng)頁的重要性澈缺,以及這些網(wǎng)頁中所包含的鏈接數(shù)求得的
- PageRank在理論上是計算某個人在任意次鏈接點擊之后到達某一個網(wǎng)頁的可能性(擁有inbound link越多坪创,人們無意間點到這個網(wǎng)頁的概率越大)
- 阻尼因子(damping factor),0.85姐赡,用戶持續(xù)點擊每個網(wǎng)頁中鏈接的概率
-
PageRange值(PR值)的計算示例:
A, B, C, D為四個網(wǎng)頁莱预,其中B、C项滑、D的PR值已知依沮,分別為0.5、0.7和0.2枪狂。同時這三個網(wǎng)頁都有一個鏈接指向A危喉,而B和C還有另外指向其他頁面的鏈接,D只有一個指向A的鏈接州疾。計算A的PR值的方法為:
每個指向A的網(wǎng)頁的PR值除以網(wǎng)頁上的鏈接數(shù)辜限,求和后,在乘以阻尼因子0.85严蓖,在加上最小值0.15
PR(A)= 0.15 + 0.85 ×(0.5/ 4 + 0.7 / 4 + 0.2 / 1) = 0.575
(由于計算網(wǎng)頁的PageRank值需要知道其他指向它的網(wǎng)頁的PageRank列粪,因此在最一開始所有的網(wǎng)頁都設置一個初始值,然后利用算法迭代計算PR值谈飒,得到真實的PR值,在迭代次數(shù)較多的情況下态蒂,初始值的設置對最后的結(jié)果沒有影響)
- 利用鏈接文本
針對要指向的網(wǎng)頁杭措,在鏈接中會放入解釋鏈接內(nèi)容的相對精確的描述
實際應用
實際搜索引擎返回結(jié)果時,是綜合考慮以上各種方法的結(jié)果钾恢,進行加權