信息檢索復(fù)習(xí)(10)——Web搜索

  • Web搜索結(jié)構(gòu)


  • 采集器(爬蟲)必須提供的功能特點

    1. 魯棒性
      Web中有些服務(wù)器會制造采集器陷阱莲祸,這些陷阱實際上是web頁面的生成器,它能在某個域下生成無數(shù)網(wǎng)頁椭迎,從而使采集器陷入到一個無線的采集循環(huán)中去锐帜。采集器必須要能從這類陷阱中跳出來。當(dāng)然畜号,這些陷阱不一定是惡意的缴阎,有時可能是網(wǎng)頁設(shè)計疏忽導(dǎo)致的。
    2. 禮貌性
      Web服務(wù)器具有一些隱式或顯式的政策來控制采集器訪問它們的頻率简软。設(shè)計采集器時必須要遵守這些代表禮貌性的訪問策略蛮拔。(遵守robots.txt ,只訪問允許的網(wǎng)站)
  • 采集器應(yīng)該提供的功能特點

    • 分布式
    • (規(guī)模)可擴(kuò)展性
    • 性能和效率
    • 質(zhì)量
    • 新鮮度
    • (功能)可擴(kuò)展性
  • 采集器的架構(gòu)

    1. 待采集URL池
    2. DNS解析模塊
    3. 抓取模塊
    4. 分析模塊
    5. URL 去重模塊
  • URL采集池

    • 支持優(yōu)先級處理并遵循禮貌性訪問原則
    • 兩個主要子模塊:F個前端隊列集合痹升,B個后端隊列集合
    • 滿足先進(jìn)先出原則
    • 前端隊列主要實現(xiàn)優(yōu)先級訪問功能建炫,而后端隊列實現(xiàn)禮貌性訪問功能
    • 首先,優(yōu)先級分配器會基于URL的抓取歷史賦給該URL一個整數(shù)i表示其優(yōu)先級疼蛾,其中i的取值在1到F之間肛跌。比如給一篇變化更頻繁的文檔分配更高的優(yōu)先級。
      B個后端隊列中的每個隊列維持下列固定情況:(1)當(dāng)采集正在進(jìn)行時,隊列不會為空(2)隊列只包含來自單個主機(jī)的URL衍慎。使用一個輔助表T來維護(hù)從主機(jī)到后端隊列的映射转唉。當(dāng)某個后端隊列為空并從前端隊列重新填充時,T必須進(jìn)行相應(yīng)的更新稳捆。
      維護(hù)一個堆隊列赠法,其中的每個元素對應(yīng)一個后端隊列,元素值為該隊列對應(yīng)的主機(jī)重新訪問的最早時間te乔夯。
      某個采集線程在請求URL池的一個URL時砖织,會從上述堆中取出其根節(jié)點,并且等待相應(yīng)時間te驯嘱。然后镶苞,從根節(jié)點對應(yīng)的后端隊列j中取出隊列首部的URLu,并指令u的抓取操作鞠评。采集u后茂蚓,條用線程會檢查j是否為空。如果為空剃幌,則選擇一個前端隊列并去除該隊列的首部URLv聋涨。在選擇前端隊列時會傾向于高優(yōu)先級隊列(通常有一個隨機(jī)過程來實現(xiàn)),即保證高優(yōu)先級URL能更快流入到后端隊列中负乡。對于URLv牍白,我們會檢查在某個后端隊列中是否已包含了來自同一主機(jī)的URL。如果存在抖棘,那么v就會加入該隊列中茂腥,這樣我們就需要重新回到前端隊列來尋找另外一個候選URL插入到現(xiàn)在為空的隊列j中。該過程不斷繼續(xù)指導(dǎo)j不再空切省。任何情況下最岗,對隊列j,線程都會基于其中上次采集的URL屬性在隊中插入一個新的最早訪問時間te朝捆。
  • Web網(wǎng)頁的重復(fù)問題

    • 檢測重復(fù)最簡單的方法:為每個網(wǎng)頁計算出一個指紋般渡,它是整個網(wǎng)頁文本的一個很精煉的摘要。
    • 對于Web的近似重復(fù)的現(xiàn)象:搭疊技術(shù)(shingling)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末芙盘,一起剝皮案震驚了整個濱河市驯用,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌儒老,老刑警劉巖蝴乔,帶你破解...
    沈念sama閱讀 222,378評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異贷盲,居然都是意外死亡淘这,警方通過查閱死者的電腦和手機(jī)剥扣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,970評論 3 399
  • 文/潘曉璐 我一進(jìn)店門巩剖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來铝穷,“玉大人,你說我怎么就攤上這事佳魔∈锬簦” “怎么了?”我有些...
    開封第一講書人閱讀 168,983評論 0 362
  • 文/不壞的土叔 我叫張陵鞠鲜,是天一觀的道長宁脊。 經(jīng)常有香客問我,道長贤姆,這世上最難降的妖魔是什么榆苞? 我笑而不...
    開封第一講書人閱讀 59,938評論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮霞捡,結(jié)果婚禮上坐漏,老公的妹妹穿的比我還像新娘。我一直安慰自己碧信,他們只是感情好赊琳,可當(dāng)我...
    茶點故事閱讀 68,955評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著砰碴,像睡著了一般躏筏。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上呈枉,一...
    開封第一講書人閱讀 52,549評論 1 312
  • 那天趁尼,我揣著相機(jī)與錄音,去河邊找鬼猖辫。 笑死酥泞,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的住册。 我是一名探鬼主播婶博,決...
    沈念sama閱讀 41,063評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼荧飞!你這毒婦竟也來了凡人?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,991評論 0 277
  • 序言:老撾萬榮一對情侶失蹤叹阔,失蹤者是張志新(化名)和其女友劉穎挠轴,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體耳幢,經(jīng)...
    沈念sama閱讀 46,522評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡岸晦,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,604評論 3 342
  • 正文 我和宋清朗相戀三年欧啤,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片启上。...
    茶點故事閱讀 40,742評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡邢隧,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出冈在,到底是詐尸還是另有隱情倒慧,我是刑警寧澤,帶...
    沈念sama閱讀 36,413評論 5 351
  • 正文 年R本政府宣布包券,位于F島的核電站纫谅,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏溅固。R本人自食惡果不足惜付秕,卻給世界環(huán)境...
    茶點故事閱讀 42,094評論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望侍郭。 院中可真熱鬧询吴,春花似錦、人聲如沸励幼。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,572評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽苹粟。三九已至有滑,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間嵌削,已是汗流浹背毛好。 一陣腳步聲響...
    開封第一講書人閱讀 33,671評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留苛秕,地道東北人肌访。 一個月前我還...
    沈念sama閱讀 49,159評論 3 378
  • 正文 我出身青樓,卻偏偏與公主長得像艇劫,于是被迫代替她去往敵國和親吼驶。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,747評論 2 361