搜索引擎的原理知識(shí)解析

(Search Engine)搜索引擎的工作原理主要分為以下三部分:

1.信息收集模塊

    信息收集模塊包括“蜘蛛控制”和“網(wǎng)絡(luò)蜘蛛”兩部分勿璃,“蜘蛛”這個(gè)稱呼形象的描述出了信息收集模塊在網(wǎng)絡(luò)數(shù)據(jù)形成的“Web”上進(jìn)行信息獲取的功能饶囚√夥總體 而言热康,網(wǎng)絡(luò)蜘蛛從種子網(wǎng)頁(yè)出發(fā)亚茬,通過(guò)反復(fù)下載網(wǎng)頁(yè)并從文檔中尋找未曾見(jiàn)過(guò)的URL铸题,達(dá)到訪問(wèn)其他網(wǎng)頁(yè)得以遍歷Web的目的汇在。而其工作策略一般則可以分為累 積式抓群踩(cumulative crawling)和增量式抓取(incremental crawling)兩種糕殉。 累積式抓取是指從某一個(gè)時(shí)間點(diǎn)開(kāi)始亩鬼,通過(guò)遍歷的方式抓取系統(tǒng)所能允許存儲(chǔ)和處理的所有網(wǎng)頁(yè)殖告。在理想的軟硬件環(huán)境下,經(jīng)過(guò)足夠的運(yùn)行時(shí)間雳锋,累積式抓取的策略 可以保證抓取到相當(dāng)規(guī)模的網(wǎng)頁(yè)集合黄绩。但由于Web數(shù)據(jù)的動(dòng)態(tài)特性,集合中網(wǎng)頁(yè)的被抓取時(shí)間點(diǎn)是不同的玷过,頁(yè)面被更新的情況也不同爽丹,因此累積式抓取到的網(wǎng)頁(yè)集 合事實(shí)上并無(wú)法與真實(shí)環(huán)境中的網(wǎng)絡(luò)數(shù)據(jù)保持一致。


與累積式抓取不同辛蚊,增量式抓取是指在具有一定量規(guī)模的網(wǎng)絡(luò)頁(yè)面集合的基礎(chǔ)上粤蝎,采用更新數(shù)據(jù)的方式選取已有集合中的過(guò)時(shí)網(wǎng)頁(yè)進(jìn)行抓取,以保證所抓取到的數(shù)據(jù) 與真實(shí)網(wǎng)絡(luò)數(shù)據(jù)足夠接近袋马。進(jìn)行增量式抓取的前提是初澎,系統(tǒng)已經(jīng)抓取了足夠數(shù)量的網(wǎng)絡(luò)頁(yè)面,并具有這些頁(yè)面被抓取的時(shí)間信息虑凛。 面向?qū)嶋H應(yīng)用環(huán)境的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)中碑宴,通常既包括累積式抓取,也包括增量式抓取的策略桑谍。累積式抓取一般用于數(shù)據(jù)集合的整體建立或大規(guī)模更新階段延柠;而增量式抓取則主要針對(duì)數(shù)據(jù)集合的日常維護(hù)與即時(shí)更新。

在確定了抓取策略之后霉囚,如何從充分利用網(wǎng)絡(luò)帶寬捕仔,合理確定網(wǎng)頁(yè)數(shù)據(jù)更新的時(shí)間點(diǎn)就成了網(wǎng)絡(luò)蜘蛛運(yùn)行策略中的核心問(wèn)題。
總體而言盈罐,在合理利用軟硬件資源進(jìn)行針對(duì)網(wǎng)絡(luò)數(shù)據(jù)的即時(shí)抓取方面榜跌,已經(jīng)形成了相對(duì)比較成熟的技術(shù)和實(shí)用性解決方案,這方面目前所需解決的主要問(wèn)題盅粪,是如 何更好的處理動(dòng)態(tài)網(wǎng)絡(luò)數(shù)據(jù)問(wèn)題(如數(shù)量越來(lái)越龐大的Web2.0數(shù)據(jù)等)钓葫,以及更好的根據(jù)網(wǎng)頁(yè)質(zhì)量修正抓取策略的問(wèn)題。

2.查詢服務(wù)模塊

查詢服務(wù)模塊是指網(wǎng)絡(luò)信息檢索系統(tǒng)中票顾,直接與用戶查詢需求交互的組成部分础浮。從功能上講,這個(gè)模塊主要完成兩方面的任務(wù):首先是用戶交互奠骄,即收集用戶查詢并 用符合用戶行為習(xí)慣的方式對(duì)查詢結(jié)果進(jìn)行反饋豆同;其次是信息查詢和檢索,使用收集到的用戶查詢?cè)谟尚畔⑹占K抓取含鳞,并由信息處理模塊建立索引的網(wǎng)絡(luò)數(shù)據(jù)上 進(jìn)行檢索影锈。這其中涉及到的核心技術(shù)包括:檢索系統(tǒng)網(wǎng)絡(luò)服務(wù)的建立和維護(hù)、面向網(wǎng)絡(luò)信息的檢索模型建立等。

網(wǎng)絡(luò)信息檢索系統(tǒng)嚴(yán)格意義上說(shuō)也在提供一種網(wǎng)絡(luò)服務(wù)(Web Service)鸭廷,因此它的建立和運(yùn)行枣抱、維護(hù)機(jī)制符合網(wǎng)絡(luò)服務(wù)系統(tǒng)的一般規(guī)律。但由于網(wǎng)絡(luò)信息檢索用戶行為習(xí)慣存在宏觀上的統(tǒng)計(jì)特性辆床,系統(tǒng)的網(wǎng)絡(luò)服務(wù)也應(yīng) 進(jìn)行優(yōu)化以更好的適應(yīng)這種行為習(xí)慣佳晶。針對(duì)搜索引擎日志分析的工作說(shuō)明,盡管網(wǎng)絡(luò)信息檢索用戶所提出的查詢數(shù)目異常繁雜(根據(jù)[Sullivan 2006]讼载,Google每天需要處理超過(guò)1億次的用戶需求)轿秧,但搜索需求中的大多數(shù)是重復(fù)的,重復(fù)的比例超過(guò)用戶所提交查詢需求的70%以上乃至更多维雇。 因此在檢索系統(tǒng)的網(wǎng)絡(luò)服務(wù)部分加入某種類型的緩存機(jī)制就是非常必要的淤刃,對(duì)檢索結(jié)果序列或檢索結(jié)果頁(yè)面本身的緩存都有助于大大減輕網(wǎng)絡(luò)數(shù)據(jù)檢索的負(fù)擔(dān)。

面向網(wǎng)絡(luò)信息的檢索模型研究一直是網(wǎng)絡(luò)信息相關(guān)研究的重點(diǎn)吱型,研究的主要方法一般集中在以下兩點(diǎn):改進(jìn)傳統(tǒng)文本信息檢索技術(shù)以適應(yīng)網(wǎng)絡(luò)信息需求逸贾;不對(duì) 傳統(tǒng)檢索技術(shù)進(jìn)行改動(dòng),而嘗試對(duì)傳統(tǒng)檢索結(jié)果與網(wǎng)絡(luò)信息質(zhì)量評(píng)估結(jié)果進(jìn)行融合津滞。前者主要的研究工作包括對(duì)網(wǎng)絡(luò)半結(jié)構(gòu)化文本檢索方式的研究和對(duì)鏈接文本檢索 方式的研究等铝侵;而后一方面主要的研究工作則集中在將網(wǎng)絡(luò)鏈接關(guān)系分析算法(如PageRank)的結(jié)果融合到傳統(tǒng)文本檢索結(jié)果模型的嘗試。而這方面最重要 的研究平臺(tái)之一是TREC的網(wǎng)絡(luò)信息檢索(Web Track)和超大規(guī)模文本檢索(Terabyte Track)論壇触徐。上述不少研究所基于的實(shí)驗(yàn)數(shù)據(jù)都來(lái)自于這兩個(gè)論壇從2001年以來(lái)的積累帐萎,我們研究中涉及到的一部分實(shí)驗(yàn)結(jié)果也是基于這個(gè)研究領(lǐng)域比較 公認(rèn)的平臺(tái)得出的矿微。

總體而言,面向用戶的查詢服務(wù)技術(shù)是網(wǎng)絡(luò)信息檢索技術(shù)研究的熱點(diǎn)之一,而主要的研究方向悔醋,則是基于傳統(tǒng)文本信息檢索技術(shù)航邢,融入網(wǎng)絡(luò)信息檢索的應(yīng)用需求元 素室抽,借以建立新的檢索模型或?qū)υ心P瓦M(jìn)行改進(jìn)惧财。當(dāng)前,這方面研究集中在對(duì)用戶信息需求的挖掘與發(fā)現(xiàn)孝鹊、改進(jìn)網(wǎng)絡(luò)信息檢索系統(tǒng)的用戶交互方式等方面上炊琉。

3.信息處理模塊

除去上兩個(gè)模塊之外的部分都可以歸入信息處理模塊的范疇,將紛繁復(fù)雜的網(wǎng)頁(yè)數(shù)據(jù)整理成可以被檢索系統(tǒng)高效又活、可靠苔咪、方便使用的格式是這一模塊 的工作。具體來(lái)講柳骄,信息處理包括對(duì)傳統(tǒng)內(nèi)容信息的處理和對(duì)非內(nèi)容信息(主要是鏈接結(jié)構(gòu)信息和文本結(jié)構(gòu)信息等)進(jìn)行處理兩個(gè)方面的內(nèi)容团赏。

對(duì)文本內(nèi)容信息的處理與傳統(tǒng)文本信息檢索系統(tǒng)的信息處理模塊功能類似,最主要的目的是建立以詞項(xiàng)(term)為中心的文本倒排索引耐薯,以便檢索系統(tǒng)中檢索功 能模塊進(jìn)行內(nèi)容相似度計(jì)算使用馆里,提高系統(tǒng)檢索效率隘世。這方面的主要研究工作集中在對(duì)倒排索引結(jié)構(gòu)合理設(shè)計(jì)上,如是否記錄文字位置信息以及記錄的形式等鸠踪。對(duì)中 文信息檢索系統(tǒng)而言,在這一部分還研究其特殊的預(yù)處理過(guò)程复斥,即分詞并建立詞項(xiàng)的過(guò)程营密。由于這方面的研究較多涉及到實(shí)際工程層面的實(shí)現(xiàn)原理與技術(shù)細(xì)節(jié),因此 相關(guān)研究工作的介紹并不多目锭,僅有部分工程技術(shù)報(bào)告涉及评汰,如863信息檢索評(píng)測(cè)的相關(guān)工作等。

與純文本數(shù)據(jù)相比痢虹,網(wǎng)絡(luò)數(shù)據(jù)不僅包括非結(jié)構(gòu)化的內(nèi)容信息被去,也包括一定程度的結(jié)構(gòu)化信息,這些結(jié)構(gòu)化信息在網(wǎng)絡(luò)信息檢索工具評(píng)價(jià)數(shù)據(jù)質(zhì)量奖唯、挖掘數(shù)據(jù)相關(guān)性等方面發(fā)揮著十分重要的作用惨缆。

因此,網(wǎng)絡(luò)信息檢索中對(duì)非內(nèi)容信息的處理是其與傳統(tǒng)文本信息檢索系統(tǒng)最大的區(qū)別所在丰捷,而其中應(yīng)用最廣泛的是利用超鏈接結(jié)構(gòu)分析方法的網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量評(píng)價(jià)技術(shù)坯墨。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市病往,隨后出現(xiàn)的幾起案子捣染,更是在濱河造成了極大的恐慌,老刑警劉巖停巷,帶你破解...
    沈念sama閱讀 222,183評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件耍攘,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡畔勤,警方通過(guò)查閱死者的電腦和手機(jī)蕾各,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)硼被,“玉大人示损,你說(shuō)我怎么就攤上這事∪铝颍” “怎么了检访?”我有些...
    開(kāi)封第一講書人閱讀 168,766評(píng)論 0 361
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)仔掸。 經(jīng)常有香客問(wèn)我脆贵,道長(zhǎng),這世上最難降的妖魔是什么起暮? 我笑而不...
    開(kāi)封第一講書人閱讀 59,854評(píng)論 1 299
  • 正文 為了忘掉前任卖氨,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘筒捺。我一直安慰自己柏腻,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,871評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布系吭。 她就那樣靜靜地躺著五嫂,像睡著了一般。 火紅的嫁衣襯著肌膚如雪肯尺。 梳的紋絲不亂的頭發(fā)上沃缘,一...
    開(kāi)封第一講書人閱讀 52,457評(píng)論 1 311
  • 那天,我揣著相機(jī)與錄音则吟,去河邊找鬼槐臀。 笑死,一個(gè)胖子當(dāng)著我的面吹牛氓仲,可吹牛的內(nèi)容都是我干的水慨。 我是一名探鬼主播,決...
    沈念sama閱讀 40,999評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼寨昙,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼讥巡!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起舔哪,我...
    開(kāi)封第一講書人閱讀 39,914評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤欢顷,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后捉蚤,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體抬驴,經(jīng)...
    沈念sama閱讀 46,465評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,543評(píng)論 3 342
  • 正文 我和宋清朗相戀三年缆巧,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了布持。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,675評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡陕悬,死狀恐怖题暖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情捉超,我是刑警寧澤胧卤,帶...
    沈念sama閱讀 36,354評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站拼岳,受9級(jí)特大地震影響枝誊,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜惜纸,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,029評(píng)論 3 335
  • 文/蒙蒙 一叶撒、第九天 我趴在偏房一處隱蔽的房頂上張望绝骚。 院中可真熱鬧,春花似錦祠够、人聲如沸压汪。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 32,514評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)蛾魄。三九已至,卻和暖如春湿滓,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背舌狗。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,616評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工叽奥, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人痛侍。 一個(gè)月前我還...
    沈念sama閱讀 49,091評(píng)論 3 378
  • 正文 我出身青樓朝氓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親主届。 傳聞我的和親對(duì)象是個(gè)殘疾皇子赵哲,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,685評(píng)論 2 360

推薦閱讀更多精彩內(nèi)容

  • 引言 推薦教材 關(guān)注搜索引擎的原因 互聯(lián)網(wǎng)上最重要的應(yīng)用系統(tǒng) 人類歷史上最大規(guī)模的信息集散平臺(tái) 學(xué)術(shù)界重要的研發(fā)平...
    Ycres閱讀 3,419評(píng)論 2 10
  • 這個(gè)系列的第六個(gè)主題,主要談一些搜索引擎相關(guān)的常見(jiàn)技術(shù)君丁。 1995年是搜索引擎商業(yè)公司發(fā)展的重要起點(diǎn)枫夺,《淺談推薦系...
    我偏笑_NSNirvana閱讀 6,636評(píng)論 3 24
  • 青鯉來(lái)時(shí)遙聞春溪聲聲碎,嗅得手植棠梨初發(fā)輕黃蕊绘闷。待小暑悄過(guò)橡庞,新梨漸垂,來(lái)邀東鄰女伴擷果緩緩歸印蔗。舊歲采得枝頭細(xì)雪扒最,今...
    二月春熙閱讀 2,196評(píng)論 1 51
  • 太陽(yáng)落山之前 請(qǐng)你別走 我想和你一起追日 到地平線的盡頭 天亮之前 請(qǐng)你別走 我想和你一起看黎明破曉 從黑夜相依到...
    火鍋不暖閱讀 845評(píng)論 9 21