無標(biāo)題文章

第一章

1.Web信息檢索的特點是什么渐尿?

答:(1)規(guī)模大。人類生產(chǎn)40億網(wǎng)頁[Google,2004]毡熏,而書才1億本;中國有3億網(wǎng)頁[天網(wǎng),2004]侣诵。

(2)內(nèi)容不穩(wěn)定痢法。50%網(wǎng)頁的平均生命周期約為50天[Cho and Garcia-Molina,2000, Cho,2002]。

(3)與生俱來的數(shù)字化杜顺、網(wǎng)絡(luò)化财搁。蜂擁而至、魚目混珠躬络。

(4)要求高并發(fā)(1000次/s)尖奔、響應(yīng)快(1s)。

2. 簡述獲取網(wǎng)頁標(biāo)題最簡單的辦法。

答:從網(wǎng)頁中的標(biāo)題標(biāo)簽< title >< /title >中提取提茁。

3. 簡述“網(wǎng)頁快照”或“歷史網(wǎng)頁“的作用淹禾。

答:(1)網(wǎng)頁快照能保留網(wǎng)頁修改前的內(nèi)容信息。

(2)網(wǎng)頁快照能體現(xiàn)蜘蛛爬行網(wǎng)站的頻率茴扁。

(3)網(wǎng)頁快照能作為現(xiàn)有網(wǎng)站內(nèi)容和蜘蛛抓取內(nèi)容的參照铃岔。

(4)網(wǎng)頁快照能體現(xiàn)網(wǎng)站階段性的內(nèi)容更新狀況。

(5)網(wǎng)頁快照能體現(xiàn)階段搜索引擎信任度峭火。

4. Archie是搜索引擎鼻祖毁习,簡述Archie具備的搜索引擎相關(guān)功能。

答:(1)定期搜集卖丸,并分析FTP系統(tǒng)中存在的文件信息

(2)大型數(shù)據(jù)庫 + 檢索方法

(3)通過文件名纺且,檢索所在FTP服務(wù)器的地址

(4)搜索引擎鼻祖:自動搜集信息、建立索引坯苹,提供檢索服務(wù)

5.敘述搜索引擎的發(fā)展趨勢隆檀。

答:(1)文本自動分類技術(shù)

(2)人工分類 + 自動爬取

(3) 互聯(lián)網(wǎng)信息:網(wǎng)頁和文件、新聞組粹湃、論壇恐仑、專業(yè)數(shù)據(jù)庫等

(4)通用搜索引擎無法全覆蓋

(5)主題搜索引擎:個性化搜索引擎、問答式搜索引擎等

(6)通用搜索引擎:出現(xiàn)分工協(xié)作为鳄,如搜索引擎技術(shù)和搜索數(shù)據(jù)庫服務(wù)提供商

(7)搜索引擎優(yōu)化空間似乎變大裳仆,但是難度不減。

(8)搜索引擎推廣正在向網(wǎng)絡(luò)推廣轉(zhuǎn)變孤钦,

(9)線上推廣渠道和線下推廣渠道加速融合歧斟。

(10)垂直搜索引擎領(lǐng)域的崛起。

(11)文本文檔搜索領(lǐng)域偏形、多媒體搜索引擎的崛起静袖。

第二章

1. 用戶向搜索引擎提交查詢詞,搜索引擎在“可以接受的時間”內(nèi)返回和該用戶查詢匹配的網(wǎng)頁信息列表俊扭。請簡述網(wǎng)頁信息列表的組成队橙?“可以接受的時間”應(yīng)滿足什么要求?

答:(1)在“可以接受的時間”內(nèi)返回和該用戶查詢匹配的網(wǎng)頁信息列表,記作L萨惑。包括:標(biāo)題捐康、URL和摘要。

(2)“可以接受的時間”即響應(yīng)時間庸蔼。系統(tǒng)應(yīng)該在額定吞吐率的情況下保證秒級響應(yīng)時間解总。不僅滿足單個查詢,且在系統(tǒng)設(shè)計負(fù)載的情況下滿足所有查詢姐仅。

2. 簡述現(xiàn)代大規(guī)模高質(zhì)量搜索引擎的工作流程花枫。

答:網(wǎng)頁搜集刻盐、預(yù)處理和查詢服務(wù)。

3. 形成倒排文件即“預(yù)處理”乌昔,請簡述其流程隙疚。

答: 形成倒排文件即“預(yù)處理”壤追,流程如下:

? ? (1)關(guān)鍵詞的提瓤牡馈;

? ? (2)重復(fù)或轉(zhuǎn)載網(wǎng)頁的消除行冰;

? ? (3)鏈接分析溺蕉;

? ? (4)網(wǎng)頁重要程度的計算。

4. 系統(tǒng)網(wǎng)頁數(shù)據(jù)庫維護(hù)的基本策略包括增量搜集悼做。簡述增量搜集的過程優(yōu)點缺點

答:(1)開始搜集一批疯特,往后1)搜集新網(wǎng)頁,2)搜集改變過的網(wǎng)頁肛走,3)刪除不存在的網(wǎng)頁;

(2)50%網(wǎng)頁的平均生命周期約為50天[Cho and Garcia-Molina,2000];

(3)優(yōu)點:時新性高漓雅,例:30萬網(wǎng)頁,1臺PC朽色,0.5天搜集完;

(4)缺點:系統(tǒng)實現(xiàn)比較復(fù)雜邻吞,包括:搜集過程、建索引過程.

5. 爬取屬于抓取網(wǎng)頁的一種策略葫男。如果將網(wǎng)頁集合看成有向圖抱冷,請說明爬取的過程。

答: 搜集過程:

(1) 從給定起始URL集合S(“種子”)開始梢褐;

(2) 沿著網(wǎng)頁中的鏈接旺遮,按照先深、先寬盈咳、或者某種策略遍歷耿眉;

(3)不停的從S中移除URL,下載網(wǎng)頁并解析其中的超鏈接URL鱼响,將未訪問過的URL加入集合S鸣剪。

(4)搜集過程想象為:一只或多只蜘蛛(spider)在蜘蛛網(wǎng)(Web)上爬行(crawl)。

第三章

1. 作為一個小型搜索引擎系統(tǒng)热押,TSE的特點是什么西傀?

答:特點如下:

(1)適合教學(xué)

(2)很小:可用普通臺式機(jī)搭建

(3)簡單:具有程序設(shè)計基礎(chǔ)即可理解

(4)功能相對完整:反映一個大規(guī)模搜索引擎的主要成分

2. 對于搜索引擎而且桶癣,如何首先搜集重要的網(wǎng)頁拥褂,好的搜集策略是什么?經(jīng)驗特征是什么牙寞?

答:搜索引擎不可能搜集所有網(wǎng)頁

[Lawrence and Giles,1998]

好的搜集策略:

分布并行工作

優(yōu)先搜集重要網(wǎng)頁

經(jīng)驗特征:

(1) 網(wǎng)頁的入度大饺鹃,被其他網(wǎng)頁引用次數(shù)多

(2) 某網(wǎng)頁的父網(wǎng)頁入度大

(3) 網(wǎng)頁的鏡像度高莫秆,熱門

(4) 網(wǎng)頁的目錄深度小,易于瀏覽

3. 請描述網(wǎng)頁搜集的流程悔详。

答:網(wǎng)頁搜集的流程如下:

從URL庫(起始種子)解析Web服務(wù)器地址

建立連接镊屎、發(fā)送請求和接收數(shù)據(jù)

網(wǎng)頁 -> 原始網(wǎng)頁庫,鏈接信息 -> 網(wǎng)頁結(jié)構(gòu)庫

待抓取的URL放入URL庫

4. 請簡述spider與gatherer的區(qū)別茄螃。

答:spider

網(wǎng)頁搜集子系統(tǒng)

可用C/C++缝驳、Java,Python等編寫

gatherer

爬取器

spider啟動多個gatherer(進(jìn)程或線程)完成一篇網(wǎng)頁抓取

5. 請簡述網(wǎng)頁重復(fù)搜集的定義和原因归苍。

答:定義:網(wǎng)頁沒有更新用狱,被搜集程序重復(fù)訪問

原因:搜集程序沒有清楚記錄已經(jīng)訪問過的URL,域名與IP多重對應(yīng)關(guān)系

第四章

1、簡述天網(wǎng)格式的優(yōu)點和缺點拼弃。

答:優(yōu)點:容錯性好夏伊,局部性數(shù)據(jù)損壞不會擴(kuò)散

缺點:不能按照網(wǎng)頁url,隨機(jī)存取其所指向的網(wǎng)頁

2. “回溯”能改進(jìn)正向減字最大匹配法的性能吻氧,請說明“回溯”的流程溺忧。

答:(1)從左到右切分一遍句子

(2)從右到左切分一遍句子

(3)對兩遍切分結(jié)果不同的字符串,用回溯法重新處理

3.分析網(wǎng)頁的結(jié)果是什么盯孙?

答:形成文檔編號到索引詞的對應(yīng)關(guān)系表

記錄組成

文檔編號

索引詞號

索引詞在文檔中的位置

索引詞載體信息(索引詞的字體鲁森、大小寫等,用于查詢結(jié)果的排序)

4. 針對基于統(tǒng)計的分詞方法镀梭,請簡述實際應(yīng)用的策略刀森?并分析這些策略的優(yōu)點。

答:使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞

使用統(tǒng)計方法識別新的詞报账,即將串頻統(tǒng)計和串匹配結(jié)合起來

匹配分詞:切分速度快研底、效率高

無詞典分詞:結(jié)合上下文識別生詞、自動消除歧義

5. 請簡述基于字符串匹配的分詞方法的基本思想透罢。

答:按照某種策略榜晦,將待分析漢字串與充分大詞典中的詞條進(jìn)行匹配,若在詞典中找到某個漢字串羽圃,則匹配成功(識別詞)

6. 針對天網(wǎng)格式缺點乾胶,請簡述預(yù)處理流程。

答:第一步:為原始網(wǎng)頁建立索引朽寞,實現(xiàn)索引網(wǎng)頁庫识窿,索引可用于網(wǎng)頁快照

第二步:網(wǎng)頁切分,將每一篇網(wǎng)頁轉(zhuǎn)化為一組詞的集合

第三步:將網(wǎng)頁到索引詞的映射脑融,轉(zhuǎn)化為索引詞到網(wǎng)頁的映射喻频,形成倒排文件

? 第五章

1. TSE系統(tǒng)為提高響應(yīng)時間,采取了哪些措施肘迎?取得什么效果甥温?

答: (1)索引詞表锻煌、用戶近期查詢結(jié)果駐留在內(nèi)存中

(2)如果內(nèi)存足夠大,所有倒排表項也可以駐留在內(nèi)存中

(3)大數(shù)據(jù)量和大訪問量(如1000個查詢/秒)姻蚓,實現(xiàn)秒級響應(yīng)

2. 在TSE系統(tǒng)中宋梧,用戶界面主要負(fù)責(zé)和用戶直接接觸的事件,具體包含哪些工作狰挡?

答: (1) 獲取用戶的查詢請求捂龄,提交給查詢代理;通過HTML語言的<FORM>來實現(xiàn)

(2)查詢代理檢索索引詞表和倒排表圆兵,產(chǎn)生結(jié)果輸出給用戶跺讯;主要用到動態(tài)網(wǎng)頁生成技術(shù)和動態(tài)摘要算法

(3)記錄日志,包括用戶查詢短語殉农、查詢時間等信息。

第六章

1. 相對于天網(wǎng)1.0局荚,天網(wǎng)2.0進(jìn)行了哪些較大的改進(jìn)超凳?

答: 主要改進(jìn)如下:

天網(wǎng)1.0:采用集中式系統(tǒng)結(jié)構(gòu),搜索量為百萬級

天網(wǎng)2.0:

(1)重新設(shè)計系統(tǒng)結(jié)構(gòu)耀态、修改實現(xiàn)方法

(2)包括搜集子系統(tǒng)轮傍、索引子系統(tǒng)、檢索子系統(tǒng)三個部分

(3)可擴(kuò)展Web信息搜集子系統(tǒng)是核心首装,由N個獨立自主的集中式系統(tǒng)和協(xié)調(diào)模塊組合而成

2. 天網(wǎng)2.0搜集系統(tǒng)的主控結(jié)構(gòu)由哪些進(jìn)程組成创夜?

答:(1)主進(jìn)程

(2)robots存取分析進(jìn)程

(3)URL過期檢查進(jìn)程

(4)數(shù)據(jù)庫

(5)結(jié)果插入進(jìn)程

(6)NewUrl處理進(jìn)程

3. 在負(fù)載平衡的條件下,保證系統(tǒng)具有動態(tài)調(diào)度性仙逻,可采用哪些方法驰吓?

答: (1)第一種方法:散列函數(shù)動態(tài)調(diào)度url

(2)第二種方法

結(jié)合第一種方法,每個節(jié)點記錄著一張www主機(jī)表

表在各個節(jié)點是相同的系奉,記錄包含一個www主機(jī)對應(yīng)的節(jié)點

(3)第三種方法:邏輯上二級映射

第七章

1. 請比較網(wǎng)頁凈化和消重的相同點與不同點檬贰。

答: 相同點:

(1)大規(guī)模搜索引擎系統(tǒng)預(yù)處理的重要環(huán)節(jié)

(2)建索引一般在消重后的網(wǎng)頁集上進(jìn)行

不同點:

網(wǎng)頁凈化:

(1)識別和消除網(wǎng)頁內(nèi)的噪音內(nèi)容(如廣告、版權(quán)信息等)

(2)提取網(wǎng)頁的主題缺亮、主題相關(guān)的內(nèi)容

消重:去除網(wǎng)頁集合中主題內(nèi)容重復(fù)的網(wǎng)頁

2. 網(wǎng)頁表示有哪幾種方法翁涤?并舉例說明。

答:(1)抽象表示:從網(wǎng)頁制作范圍(如HTML)出發(fā)萌踱,構(gòu)造能體現(xiàn)網(wǎng)頁內(nèi)容結(jié)構(gòu)葵礼、內(nèi)容重要性等的表示模型,最常用的抽象方法表示并鸵,是構(gòu)造網(wǎng)頁的標(biāo)簽樹

(2)量化表示:從計算機(jī)處理出發(fā)鸳粉,挖掘網(wǎng)頁中的隱含信息,生成用于計算的表示模型能真,如向量空間模型

3.請簡述DocView模型由哪些數(shù)據(jù)組成赁严?

答: 1扰柠、網(wǎng)頁的元數(shù)據(jù)

a. 網(wǎng)頁標(biāo)識:使用網(wǎng)頁的URL作為網(wǎng)頁唯一性標(biāo)識

b. 網(wǎng)頁類型:主題網(wǎng)頁(topic)、Hub網(wǎng)頁(hub)疼约、圖片網(wǎng)頁(pic)

c. 內(nèi)容類別:從語義上對網(wǎng)頁的內(nèi)容進(jìn)行分類

d.標(biāo)題卤档、關(guān)鍵詞、摘要:概括描述Web文檔內(nèi)容

2程剥、網(wǎng)頁的內(nèi)容數(shù)據(jù)

a. 正文:原始網(wǎng)頁中真正描述主題的部分

b. 相關(guān)鏈接:在本文網(wǎng)頁中只想與正文內(nèi)容相關(guān)的網(wǎng)頁的鏈接劝枣,而非廣告等噪音鏈接

4. 在網(wǎng)頁量化表示的過程中,存在“高頻無關(guān)詞”织鲸,請說明“高頻無關(guān)詞”的定義舔腾、特點和處理方式。

答:(1)定義:在文檔中詞頻很高搂擦,但沒有主題描述能力和區(qū)別能力稳诚。如:“中國”、“可以”

(2)特征:在大量的文檔中都可以高頻詞的角色出現(xiàn)

(3)處理:通過詞頻和文檔頻率瀑踢,確定某個集合的“高頻無關(guān)詞”集

第八章

1. 請簡述索引剪枝的目的扳还。

答:從減少倒排索引的大小、查詢處理時盡量少的處理數(shù)據(jù)橱夭,這兩方面來提升查詢的處理速度氨距。

2. 請簡述倒排索引壓縮的優(yōu)點和缺點。

答:優(yōu)點:減小倒排項數(shù)據(jù)長度棘劣、內(nèi)存和I/O帶寬的使用

缺點:對壓縮數(shù)據(jù)解碼俏让,增加CPU時間

第九章

1. 檢索評估的基礎(chǔ)是測試集,請簡述測試集的概念及組成茬暇。

答:概念:一種在規(guī)范化環(huán)境中測試系統(tǒng)效能的機(jī)制首昔。

組成:測試文檔集、查詢問題而钞、相關(guān)判斷結(jié)果三個部分沙廉。

2. 一般而言,技術(shù)評估有哪幾個層次臼节?

答:

系統(tǒng)表現(xiàn):

(1)評估中用戶關(guān)心若干事情撬陵,記做F={f1, f2,…, fn}

(2)其中的元素可以是相關(guān)性、新穎性网缝、完整性巨税、速度等

測試指標(biāo):

(1)測試一些指標(biāo),記做G={g1, g2,…, gn}

(2)希望對G的測試結(jié)果和F有好的對應(yīng)

設(shè)計指標(biāo):在設(shè)計系統(tǒng)的時候粉臊,用P={p1, p2,…, pn}表示實現(xiàn)程度對G貢獻(xiàn)的關(guān)系

非主觀題

判斷題

1草添、 信息檢索系統(tǒng)返回結(jié)果的排序,稱為“檢索排序”扼仲,隱含其中各條目的順序远寸,反映結(jié)果和查詢的相關(guān)程度抄淑。√

2驰后、斯坦福Google小組的PageRank技術(shù)和IBM公司Clever小組的HITS技術(shù)都同時才用網(wǎng)頁的“入度”和“出度”兩個指標(biāo)肆资。√

3灶芝、持續(xù)收集并長期保存Web頁郑原,具有重要的史料價值和社會意義∫固椋√

4犯犁、Minerva是美國最早保存Web信息的機(jī)構(gòu)之一∨鳎×

5酸役、假設(shè)n為并行收集系統(tǒng)的節(jié)點數(shù),則節(jié)點間URL的劃分策略可抽象為將目標(biāo)設(shè)定在n上晓避,形成一個“優(yōu)化的”URLs-劃分簇捍。√

6、 在分布式Web搜集系統(tǒng)結(jié)構(gòu)中找田,調(diào)度模塊用于維護(hù)協(xié)調(diào)進(jìn)程的IP地址和端口號腋妙。√

7伐脖、在提出的5種網(wǎng)頁消重算法中,算法3是對算法4的放松「阋×

8、 在提出的5種網(wǎng)頁消重算法中远搪,算法5比算法2嚴(yán)格劣纲。×

9谁鳍、天網(wǎng)的檢索系統(tǒng)設(shè)計原則癞季,一是追求系統(tǒng)的快速響應(yīng);二是通過集成框架倘潜,有效地把各種有利于改善檢索效果的技術(shù)集成绷柒。√

10涮因、現(xiàn)代搜索引擎普遍使用全文索引技術(shù)废睦,即網(wǎng)頁中所有詞都參與索引⊙荩√

11嗜湃、如何講一篇網(wǎng)頁比另外一篇網(wǎng)頁重要奈应?基本思想是參照科技文獻(xiàn)重要性的評估方式,即被引用多的就是重要的购披≌日酰√

12、全面網(wǎng)頁搜集 + 局部更新”屬于一種搜索引擎采用的抓取網(wǎng)頁策略今瀑,其特點是每次抓取都進(jìn)行全面網(wǎng)頁搜集程梦。×

13橘荠、在與服務(wù)器建立連接時屿附,Socket必須綁定到一個本地端口和本地地址上「缤√

14挺份、 搜索引擎有可能搜集所有網(wǎng)頁≈福×

15匀泊、由于具有詞與詞無分隔符、詞匯由多個漢字組成朵你、語句連續(xù)書寫等特點各聘,中文較英文更難分詞÷找剑×

16躲因、 在基于字符串匹配的分詞方法中,字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度忌傻〈舐觯√

17、 在形成查詢結(jié)果集合時水孩,需要用索引替代排序镰矿,即先搜集到的網(wǎng)頁以小的網(wǎng)頁編碼,索引項自動保持順序俘种〕颖辏√

18、在形成查詢結(jié)果集合時安疗,第一步是執(zhí)行檢索算法抛杨。×

單項選擇題

1荐类、中國Web信息博物館Web InfoMall提供了4種視圖怖现,其中,可用于歷史網(wǎng)頁挖掘與檢索挖掘的是

答:屬性視圖

2、根據(jù)Web InfoMall需要屈嗤,將存儲數(shù)據(jù)分為多種形式潘拨,關(guān)于索引及中間數(shù)據(jù)的描述,正確的是

答:是動態(tài)數(shù)據(jù)饶号,包含:URL索引铁追、倒排索 引、鏈接圖等茫船,難使用同一種方法來存儲琅束。

3、從事信息檢索評估的中國機(jī)構(gòu)是

答:CWIRF

4算谈、關(guān)于TREC的錯誤描述是

答:以大規(guī)模案例集為基礎(chǔ)涩禀,推動信息檢索的研究。

5然眼、在HTML Tree結(jié)構(gòu)中艾船,每個結(jié)點(內(nèi)容塊)都有相應(yīng)的描述信息,下列選項中不屬于這些描述信息的是

答:結(jié)果集

6高每、在設(shè)計適于查詢的網(wǎng)頁索引結(jié)構(gòu)時屿岂,采用了緩存技術(shù),關(guān)于緩存的錯誤描述是

答:二分查找很好利用緩存鲸匿,緩存缺失率低爷怀。

7、混合索引的本質(zhì)是

答:建立倒排索引過程中的一種索引詞選擇方法與技術(shù)带欢。

8霉撵、不屬于小搜索引擎程序的是

答:OPnet

9、下列選項中洪囤,最適合TSE的高性能并行計算機(jī)系統(tǒng)種類是

答:機(jī)群

10、下列關(guān)于可擴(kuò)展搜集子系統(tǒng)的描述撕氧,錯誤的是

答:加速比即n個節(jié)點協(xié)同工作搜集的網(wǎng)頁數(shù)與單節(jié)點在同樣時間段搜集網(wǎng)頁數(shù)之比瘤缩。

11、大型商業(yè)搜索引擎一般都提供“主動提交”的網(wǎng)頁抓取功能伦泥,關(guān)于“主動提交”剥啤,下列說法錯誤的是

答:視為極端的先寬搜索。

12不脯、原始網(wǎng)頁集合S經(jīng)過預(yù)處理后府怯,形成對S的一個子集的元素的某種內(nèi)部表示,下列選項中防楷,不屬于元素的是

答:索引號

13牺丙、一個URL由6個部分組成,其中,Scheme表示

答:協(xié)議名稱

14冲簿、在天網(wǎng)存儲格式中粟判,原始網(wǎng)頁庫由若干記錄組成,下列選項中不屬于記錄的是

答:尾部

15峦剔、對于現(xiàn)代漢語來說档礁,如果選擇ASM(d,a,m)模型,則最佳選擇是

答:m=+

16吝沫、引入倒排索引的根本原因是

答:一般的數(shù)據(jù)庫系統(tǒng)不能快速響應(yīng)大量的用戶請求呻澜。

多項選擇題

1、對搜索引擎的評估可以分為6個級別惨险,屬于以用戶為中心的級別包括:

答:輸出級羹幸、應(yīng)用級、社會級

2平道、關(guān)于動態(tài)索引剪枝方法睹欲,下列說法正確的是

答:在處理查詢的過程中,盡量少的讀取或處理査詢詞對應(yīng)倒排鏈的數(shù)據(jù)一屋。

剪枝過程發(fā)生在査詢處理階段窘疮,知道的查詢信息較多,更容易計算信息的重要度冀墨。

一般不會影響最終查詢的效果闸衫。

依賴于倒排索引的結(jié)構(gòu)與排序函數(shù)。

3诽嘉、現(xiàn)有的剪枝方法蔚出,可從多個方面來提升查詢的處理速度,包括

答:提前結(jié)束查詢處理

倒排鏈內(nèi)數(shù)據(jù)的跳躍處理

去除查詢詞

盡早結(jié)束文檔打分

4虫腋、“權(quán)值傳遞規(guī)則”有兩個性質(zhì)骄酗,這兩個屬性的作用是

答:保證規(guī)則正確

權(quán)值結(jié)果一一對應(yīng)

5、在網(wǎng)頁凈化與消重時悦冀,可將網(wǎng)頁分為主題網(wǎng)頁趋翻、圖片網(wǎng)頁和Hub網(wǎng)頁,關(guān)于Hub網(wǎng)頁的正確說法包括

答:提供指向相關(guān)網(wǎng)頁的超鏈盒蟆,超鏈密集踏烙。

網(wǎng)頁中間區(qū)域hub內(nèi)容塊包含的詞項數(shù),與網(wǎng)頁中間區(qū)域詞項數(shù)的比值历等,判斷是否hub類型讨惩。

6、因為無法搜集所有的網(wǎng)頁寒屯,所以優(yōu)先搜集用戶感興趣荐捻、或重要性較高的信息,下列屬于解決方案的是

答:加權(quán)的啟發(fā)式搜索算法

為系統(tǒng)配置導(dǎo)向詞

域名解析

7、在天網(wǎng)分布式搜集系統(tǒng)P_Arthur體系結(jié)構(gòu)中靴患,URL調(diào)度模塊包括

答:King仍侥、queen、Mosquito

8鸳君、理想狀態(tài)下农渊,高效率搜索引擎用最少的資源完成網(wǎng)頁搜集,下列選項中或颊,屬資源的是

答:設(shè)備砸紊、帶寬、時間

9囱挑、域名與IP的對應(yīng)關(guān)系存在4種情況醉顽,下列情況中,可能導(dǎo)致重復(fù)搜集的是

答:一對一平挑、一對多游添、多對一、多對多

10通熄、首先搜集重要的網(wǎng)頁可以采用經(jīng)驗特征唆涝,下列經(jīng)驗特征,在搜索引擎開始工作時是無法確定的

答:網(wǎng)頁的入度大唇辨,被其他網(wǎng)頁引用次數(shù)多廊酣。

某網(wǎng)頁的父網(wǎng)頁入度大。

網(wǎng)頁的鏡像度高赏枚,熱門亡驰。

11、針對漢語的分詞饿幅,下列說法正確的是

答:正向最小匹配和逆向最小匹配很少用凡辱。

逆向匹配的切分精度,略高于正向匹配栗恩,歧義較少煞茫。

填空題

1、可用隨機(jī)? ? 沖浪? ? 模型來作為PageRank的理論基礎(chǔ)摄凡,該模型描述網(wǎng)絡(luò)用戶對網(wǎng)頁的訪問行為。

2蚓曼、鏈接分析可以有效地計算網(wǎng)頁的重要程度亲澡,但是帶有明顯的偏向,即不重視新出現(xiàn)的網(wǎng)頁纫版;因此床绪,需要補(bǔ)償這個問題,從兩個方面考慮:? ? ? ? 用戶行為? ? 和新詞的產(chǎn)生。

3癞己、Web InfoMall 2.0是一個大規(guī)模的Web? ? 歷史網(wǎng)頁? ? ? 倉儲系統(tǒng)膀斋。

4、索引詞的? ? ? 倒排鏈? ? 用于保存出現(xiàn)這個詞的文檔號列表痹雅、詞的統(tǒng)計信息仰担,如:次數(shù)、位置等绩社。

5摔蓝、倒排項是一個三元組,包括:? ? 文檔號? ? 愉耙、詞在文檔內(nèi)的詞頻和詞在文檔中的出現(xiàn)位置贮尉。

6、在分布式Web搜集系統(tǒng)結(jié)構(gòu)中朴沿,? ? 協(xié)調(diào)? ? 進(jìn)程之間兩兩建立起連接猜谚,形成邏輯全互連關(guān)系,直接傳遞它們之間的交叉URL赌渣。

7魏铅、在評估海量網(wǎng)頁搜集系統(tǒng)的性能是,涉及四個主要參數(shù)锡垄,其中沦零,B 表示網(wǎng)絡(luò)連接的? ? ? ? 系統(tǒng)和internet之間? ? ? ? 帶寬。

8货岭、消重算法的基礎(chǔ)是:搜集并分析一篇網(wǎng)頁時路操,提取關(guān)鍵詞,并賦予每個關(guān)鍵詞一個權(quán)值千贯,權(quán)值構(gòu)成一個? ? ? ? 向量空? ? ? ? 間屯仗,用來表示網(wǎng)頁。

9搔谴、DocView模型在網(wǎng)頁自動分類中的應(yīng)用及實驗分析中魁袜,對分類效果的評價,采用傳統(tǒng)的查準(zhǔn)率敦第、? ? ? ? 查全率? ? ? ? 和F1值峰弹。

10、索引網(wǎng)頁庫? ? ? ? 的任務(wù)是:給定一個URL芜果,在原始網(wǎng)頁庫中定位到該URL所指向的記錄鞠呈。

11、網(wǎng)頁分析是將一個文檔表示為特征項右钾,? ? ? ? 中文自動切詞而是分析網(wǎng)頁的前提蚁吝。

12旱爆、搜索引擎是一個? ? ? 網(wǎng)絡(luò)應(yīng)用? ? ? ? 軟件系統(tǒng)。

13窘茁、現(xiàn)行最有效的數(shù)據(jù)結(jié)構(gòu)是? ? ? 倒排文件? ? ? ? 怀伦,即用文檔中關(guān)鍵詞作為索引,文檔作為索引目標(biāo)山林。

14房待、在與服務(wù)器建立連接時,? ? ? 通信? ? ? ? 由消息組成捌朴,消息在兩個“進(jìn)程的Socket”間傳遞吴攒。

15、用戶輸入的? ? 搜索? ? ? ? 是詞組或自然語句砂蔽,而不是詞匯洼怔。

16、提取關(guān)鍵詞的方式左驾,先從? ? ? ? 搜索? ? ? 輸入中提取關(guān)鍵詞镣隶,接著提取關(guān)鍵詞后再擴(kuò)充。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末诡右,一起剝皮案震驚了整個濱河市安岂,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌帆吻,老刑警劉巖域那,帶你破解...
    沈念sama閱讀 212,599評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異猜煮,居然都是意外死亡次员,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,629評論 3 385
  • 文/潘曉璐 我一進(jìn)店門王带,熙熙樓的掌柜王于貴愁眉苦臉地迎上來淑蔚,“玉大人,你說我怎么就攤上這事愕撰∩采溃” “怎么了?”我有些...
    開封第一講書人閱讀 158,084評論 0 348
  • 文/不壞的土叔 我叫張陵搞挣,是天一觀的道長带迟。 經(jīng)常有香客問我,道長囱桨,這世上最難降的妖魔是什么邮旷? 我笑而不...
    開封第一講書人閱讀 56,708評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮蝇摸,結(jié)果婚禮上婶肩,老公的妹妹穿的比我還像新娘。我一直安慰自己貌夕,他們只是感情好律歼,可當(dāng)我...
    茶點故事閱讀 65,813評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著啡专,像睡著了一般险毁。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上们童,一...
    開封第一講書人閱讀 50,021評論 1 291
  • 那天畔况,我揣著相機(jī)與錄音,去河邊找鬼慧库。 笑死跷跪,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的齐板。 我是一名探鬼主播吵瞻,決...
    沈念sama閱讀 39,120評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼甘磨!你這毒婦竟也來了橡羞?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,866評論 0 268
  • 序言:老撾萬榮一對情侶失蹤济舆,失蹤者是張志新(化名)和其女友劉穎卿泽,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體滋觉,經(jīng)...
    沈念sama閱讀 44,308評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡签夭,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,633評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了椎瘟。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片覆致。...
    茶點故事閱讀 38,768評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖肺蔚,靈堂內(nèi)的尸體忽然破棺而出煌妈,到底是詐尸還是另有隱情,我是刑警寧澤宣羊,帶...
    沈念sama閱讀 34,461評論 4 333
  • 正文 年R本政府宣布璧诵,位于F島的核電站,受9級特大地震影響仇冯,放射性物質(zhì)發(fā)生泄漏之宿。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 40,094評論 3 317
  • 文/蒙蒙 一苛坚、第九天 我趴在偏房一處隱蔽的房頂上張望比被。 院中可真熱鬧色难,春花似錦、人聲如沸等缀。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,850評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽尺迂。三九已至笤妙,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間噪裕,已是汗流浹背蹲盘。 一陣腳步聲響...
    開封第一講書人閱讀 32,082評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留膳音,地道東北人召衔。 一個月前我還...
    沈念sama閱讀 46,571評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像严蓖,于是被迫代替她去往敵國和親薄嫡。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,666評論 2 350

推薦閱讀更多精彩內(nèi)容

  • JAVA面試題 1颗胡、作用域public,private,protected,以及不寫時的區(qū)別答:區(qū)別如下:作用域 ...
    JA尐白閱讀 1,146評論 1 0
  • 第一張 Web信息檢索的特點是什么毫深?答: 規(guī)模大。人類生產(chǎn)40億網(wǎng)頁[Google,2004]毒姨,而書才1億本哑蔫;中國...
    她即我命閱讀 948評論 0 0
  • 第一張1.Web信息檢索的特點是什么?答:1.規(guī)模大弧呐。人類生產(chǎn)40億網(wǎng)頁[Google,2004]闸迷,而書才1億本;...
    MW演員閱讀 629評論 0 0
  • width: 65%;border: 1px solid #ddd;outline: 1300px solid #...
    邵勝奧閱讀 4,785評論 0 1
  • # Python 資源大全中文版 我想很多程序員應(yīng)該記得 GitHub 上有一個 Awesome - XXX 系列...
    小邁克閱讀 2,965評論 1 3