搜索引擎的基本原理

搜索引擎最初階段:

  • 利用網(wǎng)頁爬蟲進行抓取吗冤,通過網(wǎng)頁中的鏈接層層深入又厉,對網(wǎng)頁去掉Tag后進行分詞九府,保存每個單詞在網(wǎng)頁中的位置……查詢時允許多單詞,只有所有單詞都出現(xiàn)的網(wǎng)頁才被搜索出來馋没。沒有對搜索的結(jié)果進行排序昔逗,采用的是被檢索時候的自然排序。

基于網(wǎng)頁內(nèi)容的簡單的排序(Content-Based Ranking):

  • 單詞頻度(Word frequency)
    位于查詢條件中的單詞在文章中出現(xiàn)的次數(shù)越多篷朵,說明文檔的相關度越高
  • 文檔位置(Document location)
    搜索單詞在網(wǎng)頁中的位置勾怒,通常,如果一個網(wǎng)頁與待搜索的單詞相關声旺,則該單詞就更有可能在靠近網(wǎng)頁開始處的位置出現(xiàn)笔链,或者甚至出現(xiàn)在標題中
  • 單詞距離(Word distance)
    如果查詢條件中有多個單詞,則它們在文檔中出現(xiàn)位置應該考的很近

利用外部回指鏈接(Inbound Link)

  • 簡單計數(shù)(Simple Count)
    在每個網(wǎng)頁上統(tǒng)計鏈接的數(shù)目腮猖,并將鏈接總數(shù)作為針對網(wǎng)頁的度量鉴扫,科研論文的評價就經(jīng)常采用這樣的方式
  • PageRank
    • PageRank算法有Google創(chuàng)始人Larry Page發(fā)明,基于這一思路的各種變體已被所有大型搜索引擎采用
    • 該算法為每個網(wǎng)頁都賦予了一個指示網(wǎng)頁重要程度的評價值
    • 網(wǎng)頁的重要性是依據(jù)指向該網(wǎng)頁的所有其他網(wǎng)頁的重要性澈缺,以及這些網(wǎng)頁中所包含的鏈接數(shù)求得的
    • PageRank在理論上是計算某個人在任意次鏈接點擊之后到達某一個網(wǎng)頁的可能性(擁有inbound link越多坪创,人們無意間點到這個網(wǎng)頁的概率越大)
    • 阻尼因子(damping factor),0.85姐赡,用戶持續(xù)點擊每個網(wǎng)頁中鏈接的概率
    • PageRange值(PR值)的計算示例:


      source: "collective intelligence programming"

      A, B, C, D為四個網(wǎng)頁莱预,其中B、C项滑、D的PR值已知依沮,分別為0.5、0.7和0.2枪狂。同時這三個網(wǎng)頁都有一個鏈接指向A危喉,而B和C還有另外指向其他頁面的鏈接,D只有一個指向A的鏈接州疾。計算A的PR值的方法為:

每個指向A的網(wǎng)頁的PR值除以網(wǎng)頁上的鏈接數(shù)辜限,求和后,在乘以阻尼因子0.85严蓖,在加上最小值0.15
PR(A)= 0.15 + 0.85 ×(0.5/ 4 + 0.7 / 4 + 0.2 / 1) = 0.575
(由于計算網(wǎng)頁的PageRank值需要知道其他指向它的網(wǎng)頁的PageRank列粪,因此在最一開始所有的網(wǎng)頁都設置一個初始值,然后利用算法迭代計算PR值谈飒,得到真實的PR值,在迭代次數(shù)較多的情況下态蒂,初始值的設置對最后的結(jié)果沒有影響)

  • 利用鏈接文本
    針對要指向的網(wǎng)頁杭措,在鏈接中會放入解釋鏈接內(nèi)容的相對精確的描述

實際應用
實際搜索引擎返回結(jié)果時,是綜合考慮以上各種方法的結(jié)果钾恢,進行加權

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末手素,一起剝皮案震驚了整個濱河市鸳址,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌泉懦,老刑警劉巖稿黍,帶你破解...
    沈念sama閱讀 206,311評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異崩哩,居然都是意外死亡巡球,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,339評論 2 382
  • 文/潘曉璐 我一進店門邓嘹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來酣栈,“玉大人,你說我怎么就攤上這事汹押】篌荩” “怎么了?”我有些...
    開封第一講書人閱讀 152,671評論 0 342
  • 文/不壞的土叔 我叫張陵棚贾,是天一觀的道長窖维。 經(jīng)常有香客問我,道長妙痹,這世上最難降的妖魔是什么铸史? 我笑而不...
    開封第一講書人閱讀 55,252評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮细诸,結(jié)果婚禮上沛贪,老公的妹妹穿的比我還像新娘。我一直安慰自己震贵,他們只是感情好利赋,可當我...
    茶點故事閱讀 64,253評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著猩系,像睡著了一般媚送。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上寇甸,一...
    開封第一講書人閱讀 49,031評論 1 285
  • 那天塘偎,我揣著相機與錄音,去河邊找鬼拿霉。 笑死吟秩,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的绽淘。 我是一名探鬼主播涵防,決...
    沈念sama閱讀 38,340評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼沪铭!你這毒婦竟也來了壮池?” 一聲冷哼從身側(cè)響起偏瓤,我...
    開封第一講書人閱讀 36,973評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎椰憋,沒想到半個月后厅克,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,466評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡橙依,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,937評論 2 323
  • 正文 我和宋清朗相戀三年证舟,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片票编。...
    茶點故事閱讀 38,039評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡褪储,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出慧域,到底是詐尸還是另有隱情鲤竹,我是刑警寧澤,帶...
    沈念sama閱讀 33,701評論 4 323
  • 正文 年R本政府宣布昔榴,位于F島的核電站辛藻,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏互订。R本人自食惡果不足惜吱肌,卻給世界環(huán)境...
    茶點故事閱讀 39,254評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望仰禽。 院中可真熱鬧氮墨,春花似錦、人聲如沸吐葵。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,259評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽温峭。三九已至猛铅,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間凤藏,已是汗流浹背奸忽。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留揖庄,地道東北人栗菜。 一個月前我還...
    沈念sama閱讀 45,497評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像蹄梢,于是被迫代替她去往敵國和親疙筹。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,786評論 2 345

推薦閱讀更多精彩內(nèi)容