無標(biāo)題文章

第一章

1.Web信息檢索的特點是什么渐尿？

答：(1)規(guī)模大。人類生產(chǎn)40億網(wǎng)頁[Google,2004]毡熏，而書才1億本；中國有3億網(wǎng)頁[天網(wǎng),2004]侣诵。

(2)內(nèi)容不穩(wěn)定痢法。50%網(wǎng)頁的平均生命周期約為50天[Cho and Garcia-Molina,2000, Cho,2002]。

(3)與生俱來的數(shù)字化杜顺、網(wǎng)絡(luò)化财搁。蜂擁而至、魚目混珠躬络。

(4)要求高并發(fā)（1000次/s）尖奔、響應(yīng)快（1s）。

2. 簡述獲取網(wǎng)頁標(biāo)題最簡單的辦法。

答：從網(wǎng)頁中的標(biāo)題標(biāo)簽< title >< /title >中提取提茁。

3. 簡述“網(wǎng)頁快照”或“歷史網(wǎng)頁“的作用淹禾。

答：(1)網(wǎng)頁快照能保留網(wǎng)頁修改前的內(nèi)容信息。

(2)網(wǎng)頁快照能體現(xiàn)蜘蛛爬行網(wǎng)站的頻率茴扁。

(3)網(wǎng)頁快照能作為現(xiàn)有網(wǎng)站內(nèi)容和蜘蛛抓取內(nèi)容的參照铃岔。

(4)網(wǎng)頁快照能體現(xiàn)網(wǎng)站階段性的內(nèi)容更新狀況。

(5)網(wǎng)頁快照能體現(xiàn)階段搜索引擎信任度峭火。

4. Archie是搜索引擎鼻祖毁习，簡述Archie具備的搜索引擎相關(guān)功能。

答：(1)定期搜集卖丸，并分析FTP系統(tǒng)中存在的文件信息

(2)大型數(shù)據(jù)庫 + 檢索方法

(3)通過文件名纺且，檢索所在FTP服務(wù)器的地址

(4)搜索引擎鼻祖：自動搜集信息、建立索引坯苹，提供檢索服務(wù)

5.敘述搜索引擎的發(fā)展趨勢隆檀。

答：(1)文本自動分類技術(shù)

(2)人工分類 + 自動爬取

(3) 互聯(lián)網(wǎng)信息：網(wǎng)頁和文件、新聞組粹湃、論壇恐仑、專業(yè)數(shù)據(jù)庫等

(4)通用搜索引擎無法全覆蓋

(5)主題搜索引擎：個性化搜索引擎、問答式搜索引擎等

(6)通用搜索引擎：出現(xiàn)分工協(xié)作为鳄，如搜索引擎技術(shù)和搜索數(shù)據(jù)庫服務(wù)提供商

(7)搜索引擎優(yōu)化空間似乎變大裳仆，但是難度不減。

(8)搜索引擎推廣正在向網(wǎng)絡(luò)推廣轉(zhuǎn)變孤钦，

(9)線上推廣渠道和線下推廣渠道加速融合歧斟。

(10)垂直搜索引擎領(lǐng)域的崛起。

(11)文本文檔搜索領(lǐng)域偏形、多媒體搜索引擎的崛起静袖。

第二章

1. 用戶向搜索引擎提交查詢詞，搜索引擎在“可以接受的時間”內(nèi)返回和該用戶查詢匹配的網(wǎng)頁信息列表俊扭。請簡述網(wǎng)頁信息列表的組成队橙？“可以接受的時間”應(yīng)滿足什么要求?

答：（1）在“可以接受的時間”內(nèi)返回和該用戶查詢匹配的網(wǎng)頁信息列表，記作L萨惑。包括：標(biāo)題捐康、URL和摘要。

（2）“可以接受的時間”即響應(yīng)時間庸蔼。系統(tǒng)應(yīng)該在額定吞吐率的情況下保證秒級響應(yīng)時間解总。不僅滿足單個查詢，且在系統(tǒng)設(shè)計負(fù)載的情況下滿足所有查詢姐仅。

2. 簡述現(xiàn)代大規(guī)模高質(zhì)量搜索引擎的工作流程花枫。

答：網(wǎng)頁搜集刻盐、預(yù)處理和查詢服務(wù)。

3. 形成倒排文件即“預(yù)處理”乌昔，請簡述其流程隙疚。

答：形成倒排文件即“預(yù)處理”壤追，流程如下：

? ? （1）關(guān)鍵詞的提瓤牡馈；

? ? （2）重復(fù)或轉(zhuǎn)載網(wǎng)頁的消除行冰；

? ? （3）鏈接分析溺蕉；

? ? （4）網(wǎng)頁重要程度的計算。

4. 系統(tǒng)網(wǎng)頁數(shù)據(jù)庫維護(hù)的基本策略包括增量搜集悼做。簡述增量搜集的過程優(yōu)點缺點

答：（1）開始搜集一批疯特，往后1）搜集新網(wǎng)頁，2）搜集改變過的網(wǎng)頁肛走，3）刪除不存在的網(wǎng)頁;

(2)50%網(wǎng)頁的平均生命周期約為50天[Cho and Garcia-Molina,2000];

(3)優(yōu)點：時新性高漓雅，例：30萬網(wǎng)頁，1臺PC朽色，0.5天搜集完;

(4)缺點：系統(tǒng)實現(xiàn)比較復(fù)雜邻吞，包括：搜集過程、建索引過程.

5. 爬取屬于抓取網(wǎng)頁的一種策略葫男。如果將網(wǎng)頁集合看成有向圖抱冷，請說明爬取的過程。

答：搜集過程：

（1）從給定起始URL集合S（“種子”）開始梢褐；

（2）沿著網(wǎng)頁中的鏈接旺遮，按照先深、先寬盈咳、或者某種策略遍歷耿眉；

（3）不停的從S中移除URL，下載網(wǎng)頁并解析其中的超鏈接URL鱼响，將未訪問過的URL加入集合S鸣剪。

（4）搜集過程想象為：一只或多只蜘蛛（spider）在蜘蛛網(wǎng)（Web）上爬行（crawl）。

第三章

1. 作為一個小型搜索引擎系統(tǒng)热押，TSE的特點是什么西傀？

答：特點如下：

（1）適合教學(xué)

（2）很小：可用普通臺式機(jī)搭建

（3）簡單：具有程序設(shè)計基礎(chǔ)即可理解

（4）功能相對完整：反映一個大規(guī)模搜索引擎的主要成分

2. 對于搜索引擎而且桶癣，如何首先搜集重要的網(wǎng)頁拥褂，好的搜集策略是什么？經(jīng)驗特征是什么牙寞？

答：搜索引擎不可能搜集所有網(wǎng)頁

[Lawrence and Giles,1998]

好的搜集策略：

分布并行工作

優(yōu)先搜集重要網(wǎng)頁

經(jīng)驗特征：

（1) 網(wǎng)頁的入度大饺鹃，被其他網(wǎng)頁引用次數(shù)多

（2) 某網(wǎng)頁的父網(wǎng)頁入度大

（3) 網(wǎng)頁的鏡像度高莫秆，熱門

（4) 網(wǎng)頁的目錄深度小，易于瀏覽

3. 請描述網(wǎng)頁搜集的流程悔详。

答：網(wǎng)頁搜集的流程如下：

從URL庫（起始種子）解析Web服務(wù)器地址

建立連接镊屎、發(fā)送請求和接收數(shù)據(jù)

網(wǎng)頁 -> 原始網(wǎng)頁庫，鏈接信息 -> 網(wǎng)頁結(jié)構(gòu)庫

待抓取的URL放入URL庫

4. 請簡述spider與gatherer的區(qū)別茄螃。

答：spider

網(wǎng)頁搜集子系統(tǒng)

可用C/C++缝驳、Java，Python等編寫

gatherer

爬取器

spider啟動多個gatherer（進(jìn)程或線程）完成一篇網(wǎng)頁抓取

5. 請簡述網(wǎng)頁重復(fù)搜集的定義和原因归苍。

答：定義:網(wǎng)頁沒有更新用狱，被搜集程序重復(fù)訪問

原因:搜集程序沒有清楚記錄已經(jīng)訪問過的URL,域名與IP多重對應(yīng)關(guān)系

第四章

1、簡述天網(wǎng)格式的優(yōu)點和缺點拼弃。

答：優(yōu)點：容錯性好夏伊，局部性數(shù)據(jù)損壞不會擴(kuò)散

缺點：不能按照網(wǎng)頁url，隨機(jī)存取其所指向的網(wǎng)頁

2. “回溯”能改進(jìn)正向減字最大匹配法的性能吻氧，請說明“回溯”的流程溺忧。

答：（1）從左到右切分一遍句子

（2）從右到左切分一遍句子

（3）對兩遍切分結(jié)果不同的字符串，用回溯法重新處理

3.分析網(wǎng)頁的結(jié)果是什么盯孙？

答：形成文檔編號到索引詞的對應(yīng)關(guān)系表

記錄組成

文檔編號

索引詞號

索引詞在文檔中的位置

索引詞載體信息（索引詞的字體鲁森、大小寫等，用于查詢結(jié)果的排序）

4. 針對基于統(tǒng)計的分詞方法镀梭，請簡述實際應(yīng)用的策略刀森？并分析這些策略的優(yōu)點。

答：使用一部基本的分詞詞典（常用詞詞典）進(jìn)行串匹配分詞

使用統(tǒng)計方法識別新的詞报账，即將串頻統(tǒng)計和串匹配結(jié)合起來

匹配分詞：切分速度快研底、效率高

無詞典分詞：結(jié)合上下文識別生詞、自動消除歧義

5. 請簡述基于字符串匹配的分詞方法的基本思想透罢。

答：按照某種策略榜晦，將待分析漢字串與充分大詞典中的詞條進(jìn)行匹配，若在詞典中找到某個漢字串羽圃，則匹配成功（識別詞）

6. 針對天網(wǎng)格式缺點乾胶，請簡述預(yù)處理流程。

答：第一步：為原始網(wǎng)頁建立索引朽寞，實現(xiàn)索引網(wǎng)頁庫识窿，索引可用于網(wǎng)頁快照

第二步：網(wǎng)頁切分，將每一篇網(wǎng)頁轉(zhuǎn)化為一組詞的集合

第三步：將網(wǎng)頁到索引詞的映射脑融，轉(zhuǎn)化為索引詞到網(wǎng)頁的映射喻频，形成倒排文件

? 第五章

1. TSE系統(tǒng)為提高響應(yīng)時間，采取了哪些措施肘迎？取得什么效果甥温？

答： (1)索引詞表锻煌、用戶近期查詢結(jié)果駐留在內(nèi)存中

(2)如果內(nèi)存足夠大，所有倒排表項也可以駐留在內(nèi)存中

(3)大數(shù)據(jù)量和大訪問量（如1000個查詢/秒）姻蚓，實現(xiàn)秒級響應(yīng)

2. 在TSE系統(tǒng)中宋梧，用戶界面主要負(fù)責(zé)和用戶直接接觸的事件，具體包含哪些工作狰挡？

答： (1) 獲取用戶的查詢請求捂龄，提交給查詢代理；通過HTML語言的<FORM>來實現(xiàn)

(2)查詢代理檢索索引詞表和倒排表圆兵，產(chǎn)生結(jié)果輸出給用戶跺讯；主要用到動態(tài)網(wǎng)頁生成技術(shù)和動態(tài)摘要算法

(3)記錄日志，包括用戶查詢短語殉农、查詢時間等信息。

第六章

1. 相對于天網(wǎng)1.0局荚，天網(wǎng)2.0進(jìn)行了哪些較大的改進(jìn)超凳？

答：主要改進(jìn)如下：

天網(wǎng)1.0：采用集中式系統(tǒng)結(jié)構(gòu)，搜索量為百萬級

天網(wǎng)2.0：

（1）重新設(shè)計系統(tǒng)結(jié)構(gòu)耀态、修改實現(xiàn)方法

（2）包括搜集子系統(tǒng)轮傍、索引子系統(tǒng)、檢索子系統(tǒng)三個部分

（3）可擴(kuò)展Web信息搜集子系統(tǒng)是核心首装，由N個獨立自主的集中式系統(tǒng)和協(xié)調(diào)模塊組合而成

2. 天網(wǎng)2.0搜集系統(tǒng)的主控結(jié)構(gòu)由哪些進(jìn)程組成创夜？

答：（1）主進(jìn)程

（2）robots存取分析進(jìn)程

（3）URL過期檢查進(jìn)程

（4）數(shù)據(jù)庫

（5）結(jié)果插入進(jìn)程

（6）NewUrl處理進(jìn)程

3. 在負(fù)載平衡的條件下，保證系統(tǒng)具有動態(tài)調(diào)度性仙逻，可采用哪些方法驰吓？

答：（1）第一種方法：散列函數(shù)動態(tài)調(diào)度url

（2）第二種方法

結(jié)合第一種方法，每個節(jié)點記錄著一張www主機(jī)表

表在各個節(jié)點是相同的系奉，記錄包含一個www主機(jī)對應(yīng)的節(jié)點

（3）第三種方法：邏輯上二級映射

第七章

1. 請比較網(wǎng)頁凈化和消重的相同點與不同點檬贰。

答：相同點：

（1）大規(guī)模搜索引擎系統(tǒng)預(yù)處理的重要環(huán)節(jié)

（2）建索引一般在消重后的網(wǎng)頁集上進(jìn)行

不同點：

網(wǎng)頁凈化：

（1）識別和消除網(wǎng)頁內(nèi)的噪音內(nèi)容（如廣告、版權(quán)信息等）

（2）提取網(wǎng)頁的主題缺亮、主題相關(guān)的內(nèi)容

消重：去除網(wǎng)頁集合中主題內(nèi)容重復(fù)的網(wǎng)頁

2. 網(wǎng)頁表示有哪幾種方法翁涤？并舉例說明。

答：（1）抽象表示：從網(wǎng)頁制作范圍（如HTML）出發(fā)萌踱，構(gòu)造能體現(xiàn)網(wǎng)頁內(nèi)容結(jié)構(gòu)葵礼、內(nèi)容重要性等的表示模型，最常用的抽象方法表示并鸵，是構(gòu)造網(wǎng)頁的標(biāo)簽樹

（2）量化表示：從計算機(jī)處理出發(fā)鸳粉，挖掘網(wǎng)頁中的隱含信息，生成用于計算的表示模型能真，如向量空間模型

3.請簡述DocView模型由哪些數(shù)據(jù)組成赁严？

答： 1扰柠、網(wǎng)頁的元數(shù)據(jù)

a. 網(wǎng)頁標(biāo)識：使用網(wǎng)頁的URL作為網(wǎng)頁唯一性標(biāo)識

b. 網(wǎng)頁類型：主題網(wǎng)頁（topic）、Hub網(wǎng)頁（hub）疼约、圖片網(wǎng)頁（pic）

c. 內(nèi)容類別：從語義上對網(wǎng)頁的內(nèi)容進(jìn)行分類

d.標(biāo)題卤档、關(guān)鍵詞、摘要：概括描述Web文檔內(nèi)容

2程剥、網(wǎng)頁的內(nèi)容數(shù)據(jù)

a. 正文：原始網(wǎng)頁中真正描述主題的部分

b. 相關(guān)鏈接：在本文網(wǎng)頁中只想與正文內(nèi)容相關(guān)的網(wǎng)頁的鏈接劝枣，而非廣告等噪音鏈接

4. 在網(wǎng)頁量化表示的過程中，存在“高頻無關(guān)詞”织鲸，請說明“高頻無關(guān)詞”的定義舔腾、特點和處理方式。

答：（1）定義：在文檔中詞頻很高搂擦，但沒有主題描述能力和區(qū)別能力稳诚。如：“中國”、“可以”

（2）特征：在大量的文檔中都可以高頻詞的角色出現(xiàn)

（3）處理：通過詞頻和文檔頻率瀑踢，確定某個集合的“高頻無關(guān)詞”集

第八章

1. 請簡述索引剪枝的目的扳还。

答：從減少倒排索引的大小、查詢處理時盡量少的處理數(shù)據(jù)橱夭，這兩方面來提升查詢的處理速度氨距。

2. 請簡述倒排索引壓縮的優(yōu)點和缺點。

答：優(yōu)點：減小倒排項數(shù)據(jù)長度棘劣、內(nèi)存和I/O帶寬的使用

缺點：對壓縮數(shù)據(jù)解碼俏让，增加CPU時間

第九章

1. 檢索評估的基礎(chǔ)是測試集，請簡述測試集的概念及組成茬暇。

答：概念：一種在規(guī)范化環(huán)境中測試系統(tǒng)效能的機(jī)制首昔。

組成：測試文檔集、查詢問題而钞、相關(guān)判斷結(jié)果三個部分沙廉。

2. 一般而言，技術(shù)評估有哪幾個層次臼节？

答：

系統(tǒng)表現(xiàn):

（1）評估中用戶關(guān)心若干事情撬陵，記做F={f1, f2,…, fn}

（2）其中的元素可以是相關(guān)性、新穎性网缝、完整性巨税、速度等

測試指標(biāo)：

（1）測試一些指標(biāo)，記做G={g1, g2,…, gn}

（2）希望對G的測試結(jié)果和F有好的對應(yīng)

設(shè)計指標(biāo)：在設(shè)計系統(tǒng)的時候粉臊，用P={p1, p2,…, pn}表示實現(xiàn)程度對G貢獻(xiàn)的關(guān)系

非主觀題

判斷題

1草添、信息檢索系統(tǒng)返回結(jié)果的排序，稱為“檢索排序”扼仲，隱含其中各條目的順序远寸，反映結(jié)果和查詢的相關(guān)程度抄淑。√

2驰后、斯坦福Google小組的PageRank技術(shù)和IBM公司Clever小組的HITS技術(shù)都同時才用網(wǎng)頁的“入度”和“出度”兩個指標(biāo)肆资。√

3灶芝、持續(xù)收集并長期保存Web頁郑原，具有重要的史料價值和社會意義∫固椋√

4犯犁、Minerva是美國最早保存Web信息的機(jī)構(gòu)之一∨鳎×

5酸役、假設(shè)n為并行收集系統(tǒng)的節(jié)點數(shù)，則節(jié)點間URL的劃分策略可抽象為將目標(biāo)設(shè)定在n上晓避，形成一個“優(yōu)化的”URLs-劃分簇捍。√

6、在分布式Web搜集系統(tǒng)結(jié)構(gòu)中找田，調(diào)度模塊用于維護(hù)協(xié)調(diào)進(jìn)程的IP地址和端口號腋妙。√

7伐脖、在提出的5種網(wǎng)頁消重算法中，算法3是對算法4的放松「阋×

8、在提出的5種網(wǎng)頁消重算法中远搪，算法5比算法2嚴(yán)格劣纲。×

9谁鳍、天網(wǎng)的檢索系統(tǒng)設(shè)計原則癞季，一是追求系統(tǒng)的快速響應(yīng)；二是通過集成框架倘潜，有效地把各種有利于改善檢索效果的技術(shù)集成绷柒。√

10涮因、現(xiàn)代搜索引擎普遍使用全文索引技術(shù)废睦，即網(wǎng)頁中所有詞都參與索引⊙荩√

11嗜湃、如何講一篇網(wǎng)頁比另外一篇網(wǎng)頁重要奈应？基本思想是參照科技文獻(xiàn)重要性的評估方式，即被引用多的就是重要的购披≌日酰√

12、全面網(wǎng)頁搜集 + 局部更新”屬于一種搜索引擎采用的抓取網(wǎng)頁策略今瀑，其特點是每次抓取都進(jìn)行全面網(wǎng)頁搜集程梦。×

13橘荠、在與服務(wù)器建立連接時屿附，Socket必須綁定到一個本地端口和本地地址上「缤√

14挺份、搜索引擎有可能搜集所有網(wǎng)頁≈福×

15匀泊、由于具有詞與詞無分隔符、詞匯由多個漢字組成朵你、語句連續(xù)書寫等特點各聘，中文較英文更難分詞÷找剑×

16躲因、在基于字符串匹配的分詞方法中，字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度忌傻〈舐觯√

17、在形成查詢結(jié)果集合時水孩，需要用索引替代排序镰矿，即先搜集到的網(wǎng)頁以小的網(wǎng)頁編碼，索引項自動保持順序俘种〕颖辏√

18、在形成查詢結(jié)果集合時安疗，第一步是執(zhí)行檢索算法抛杨。×

單項選擇題

1荐类、中國Web信息博物館Web InfoMall提供了4種視圖怖现，其中，可用于歷史網(wǎng)頁挖掘與檢索挖掘的是

答：屬性視圖

2、根據(jù)Web InfoMall需要屈嗤，將存儲數(shù)據(jù)分為多種形式潘拨，關(guān)于索引及中間數(shù)據(jù)的描述，正確的是

答：是動態(tài)數(shù)據(jù)饶号，包含：URL索引铁追、倒排索引、鏈接圖等茫船，難使用同一種方法來存儲琅束。

3、從事信息檢索評估的中國機(jī)構(gòu)是

答：CWIRF

4算谈、關(guān)于TREC的錯誤描述是

答：以大規(guī)模案例集為基礎(chǔ)涩禀，推動信息檢索的研究。

5然眼、在HTML Tree結(jié)構(gòu)中艾船，每個結(jié)點（內(nèi)容塊）都有相應(yīng)的描述信息，下列選項中不屬于這些描述信息的是

答：結(jié)果集

6高每、在設(shè)計適于查詢的網(wǎng)頁索引結(jié)構(gòu)時屿岂，采用了緩存技術(shù)，關(guān)于緩存的錯誤描述是

答：二分查找很好利用緩存鲸匿，緩存缺失率低爷怀。

7、混合索引的本質(zhì)是

答：建立倒排索引過程中的一種索引詞選擇方法與技術(shù)带欢。

8霉撵、不屬于小搜索引擎程序的是

答：OPnet

9、下列選項中洪囤，最適合TSE的高性能并行計算機(jī)系統(tǒng)種類是

答：機(jī)群

10、下列關(guān)于可擴(kuò)展搜集子系統(tǒng)的描述撕氧，錯誤的是

答：加速比即n個節(jié)點協(xié)同工作搜集的網(wǎng)頁數(shù)與單節(jié)點在同樣時間段搜集網(wǎng)頁數(shù)之比瘤缩。

11、大型商業(yè)搜索引擎一般都提供“主動提交”的網(wǎng)頁抓取功能伦泥，關(guān)于“主動提交”剥啤，下列說法錯誤的是

答：視為極端的先寬搜索。

12不脯、原始網(wǎng)頁集合S經(jīng)過預(yù)處理后府怯，形成對S的一個子集的元素的某種內(nèi)部表示，下列選項中防楷，不屬于元素的是

答：索引號

13牺丙、一個URL由6個部分組成，其中，Scheme表示

答：協(xié)議名稱

14冲簿、在天網(wǎng)存儲格式中粟判，原始網(wǎng)頁庫由若干記錄組成，下列選項中不屬于記錄的是

答：尾部

15峦剔、對于現(xiàn)代漢語來說档礁，如果選擇ASM(d,a,m)模型，則最佳選擇是

答：m=+

16吝沫、引入倒排索引的根本原因是

答：一般的數(shù)據(jù)庫系統(tǒng)不能快速響應(yīng)大量的用戶請求呻澜。

多項選擇題

1、對搜索引擎的評估可以分為6個級別惨险，屬于以用戶為中心的級別包括：

答：輸出級羹幸、應(yīng)用級、社會級

2平道、關(guān)于動態(tài)索引剪枝方法睹欲，下列說法正確的是

答：在處理查詢的過程中，盡量少的讀取或處理査詢詞對應(yīng)倒排鏈的數(shù)據(jù)一屋。

剪枝過程發(fā)生在査詢處理階段窘疮，知道的查詢信息較多，更容易計算信息的重要度冀墨。

一般不會影響最終查詢的效果闸衫。

依賴于倒排索引的結(jié)構(gòu)與排序函數(shù)。

3诽嘉、現(xiàn)有的剪枝方法蔚出，可從多個方面來提升查詢的處理速度，包括

答：提前結(jié)束查詢處理

倒排鏈內(nèi)數(shù)據(jù)的跳躍處理

去除查詢詞

盡早結(jié)束文檔打分

4虫腋、“權(quán)值傳遞規(guī)則”有兩個性質(zhì)骄酗，這兩個屬性的作用是

答：保證規(guī)則正確

權(quán)值結(jié)果一一對應(yīng)

5、在網(wǎng)頁凈化與消重時悦冀，可將網(wǎng)頁分為主題網(wǎng)頁趋翻、圖片網(wǎng)頁和Hub網(wǎng)頁，關(guān)于Hub網(wǎng)頁的正確說法包括

答：提供指向相關(guān)網(wǎng)頁的超鏈盒蟆，超鏈密集踏烙。

網(wǎng)頁中間區(qū)域hub內(nèi)容塊包含的詞項數(shù)，與網(wǎng)頁中間區(qū)域詞項數(shù)的比值历等，判斷是否hub類型讨惩。

6、因為無法搜集所有的網(wǎng)頁寒屯，所以優(yōu)先搜集用戶感興趣荐捻、或重要性較高的信息，下列屬于解決方案的是

答：加權(quán)的啟發(fā)式搜索算法

為系統(tǒng)配置導(dǎo)向詞

域名解析

7、在天網(wǎng)分布式搜集系統(tǒng)P_Arthur體系結(jié)構(gòu)中靴患，URL調(diào)度模塊包括

答：King仍侥、queen、Mosquito

8鸳君、理想狀態(tài)下农渊，高效率搜索引擎用最少的資源完成網(wǎng)頁搜集，下列選項中或颊，屬資源的是

答：設(shè)備砸紊、帶寬、時間

9囱挑、域名與IP的對應(yīng)關(guān)系存在4種情況醉顽，下列情況中，可能導(dǎo)致重復(fù)搜集的是

答：一對一平挑、一對多游添、多對一、多對多

10通熄、首先搜集重要的網(wǎng)頁可以采用經(jīng)驗特征唆涝，下列經(jīng)驗特征，在搜索引擎開始工作時是無法確定的

答：網(wǎng)頁的入度大唇辨，被其他網(wǎng)頁引用次數(shù)多廊酣。

某網(wǎng)頁的父網(wǎng)頁入度大。

網(wǎng)頁的鏡像度高赏枚，熱門亡驰。

11、針對漢語的分詞饿幅，下列說法正確的是

答：正向最小匹配和逆向最小匹配很少用凡辱。

逆向匹配的切分精度，略高于正向匹配栗恩，歧義較少煞茫。

填空題

1、可用隨機(jī)? ? 沖浪? ? 模型來作為PageRank的理論基礎(chǔ)摄凡，該模型描述網(wǎng)絡(luò)用戶對網(wǎng)頁的訪問行為。

2蚓曼、鏈接分析可以有效地計算網(wǎng)頁的重要程度亲澡，但是帶有明顯的偏向，即不重視新出現(xiàn)的網(wǎng)頁纫版；因此床绪，需要補(bǔ)償這個問題，從兩個方面考慮：? ? ? ? 用戶行為? ? 和新詞的產(chǎn)生。

3癞己、Web InfoMall 2.0是一個大規(guī)模的Web? ? 歷史網(wǎng)頁? ? ? 倉儲系統(tǒng)膀斋。

4、索引詞的? ? ? 倒排鏈? ? 用于保存出現(xiàn)這個詞的文檔號列表痹雅、詞的統(tǒng)計信息仰担，如：次數(shù)、位置等绩社。

5摔蓝、倒排項是一個三元組，包括：? ? 文檔號? ? 愉耙、詞在文檔內(nèi)的詞頻和詞在文檔中的出現(xiàn)位置贮尉。

6、在分布式Web搜集系統(tǒng)結(jié)構(gòu)中朴沿，? ? 協(xié)調(diào)? ? 進(jìn)程之間兩兩建立起連接猜谚，形成邏輯全互連關(guān)系，直接傳遞它們之間的交叉URL赌渣。

7魏铅、在評估海量網(wǎng)頁搜集系統(tǒng)的性能是，涉及四個主要參數(shù)锡垄，其中沦零，B 表示網(wǎng)絡(luò)連接的? ? ? ? 系統(tǒng)和internet之間? ? ? ? 帶寬。

8货岭、消重算法的基礎(chǔ)是：搜集并分析一篇網(wǎng)頁時路操，提取關(guān)鍵詞，并賦予每個關(guān)鍵詞一個權(quán)值千贯，權(quán)值構(gòu)成一個? ? ? ? 向量空? ? ? ? 間屯仗，用來表示網(wǎng)頁。

9搔谴、DocView模型在網(wǎng)頁自動分類中的應(yīng)用及實驗分析中魁袜，對分類效果的評價，采用傳統(tǒng)的查準(zhǔn)率敦第、? ? ? ? 查全率? ? ? ? 和F1值峰弹。

10、索引網(wǎng)頁庫? ? ? ? 的任務(wù)是：給定一個URL芜果，在原始網(wǎng)頁庫中定位到該URL所指向的記錄鞠呈。

11、網(wǎng)頁分析是將一個文檔表示為特征項右钾，? ? ? ? 中文自動切詞而是分析網(wǎng)頁的前提蚁吝。

12旱爆、搜索引擎是一個? ? ? 網(wǎng)絡(luò)應(yīng)用? ? ? ? 軟件系統(tǒng)。

13窘茁、現(xiàn)行最有效的數(shù)據(jù)結(jié)構(gòu)是? ? ? 倒排文件? ? ? ? 怀伦，即用文檔中關(guān)鍵詞作為索引，文檔作為索引目標(biāo)山林。

14房待、在與服務(wù)器建立連接時，? ? ? 通信? ? ? ? 由消息組成捌朴，消息在兩個“進(jìn)程的Socket”間傳遞吴攒。

15、用戶輸入的? ? 搜索? ? ? ? 是詞組或自然語句砂蔽，而不是詞匯洼怔。

16、提取關(guān)鍵詞的方式左驾，先從? ? ? ? 搜索? ? ? 輸入中提取關(guān)鍵詞镣隶，接著提取關(guān)鍵詞后再擴(kuò)充。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末诡右，一起剝皮案震驚了整個濱河市安岂，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌帆吻，老刑警劉巖域那，帶你破解...
沈念sama閱讀 212,599評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異猜煮，居然都是意外死亡次员，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,629評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門王带，熙熙樓的掌柜王于貴愁眉苦臉地迎上來淑蔚，“玉大人，你說我怎么就攤上這事愕撰∩采溃” “怎么了？”我有些...
開封第一講書人閱讀 158,084評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵搞挣，是天一觀的道長带迟。經(jīng)常有香客問我，道長囱桨，這世上最難降的妖魔是什么邮旷？我笑而不...
開封第一講書人閱讀 56,708評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮蝇摸，結(jié)果婚禮上婶肩，老公的妹妹穿的比我還像新娘。我一直安慰自己貌夕，他們只是感情好律歼，可當(dāng)我...
茶點故事閱讀 65,813評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著啡专，像睡著了一般险毁。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上们童，一...
開封第一講書人閱讀 50,021評論 1贊 291
城市分裂傳說
那天畔况，我揣著相機(jī)與錄音，去河邊找鬼慧库。笑死跷跪，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的齐板。我是一名探鬼主播吵瞻，決...
沈念sama閱讀 39,120評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼甘磨！你這毒婦竟也來了橡羞？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,866評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤济舆，失蹤者是張志新（化名）和其女友劉穎卿泽，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體滋觉，經(jīng)...
沈念sama閱讀 44,308評論 1贊 303
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡签夭，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,633評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了椎瘟。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片覆致。...
茶點故事閱讀 38,768評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖肺蔚，靈堂內(nèi)的尸體忽然破棺而出煌妈，到底是詐尸還是另有隱情，我是刑警寧澤宣羊，帶...
沈念sama閱讀 34,461評論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布璧诵，位于F島的核電站，受9級特大地震影響仇冯，放射性物質(zhì)發(fā)生泄漏之宿。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 40,094評論 3贊 317
男人毒藥：我在死后第九天來索命
文/蒙蒙一苛坚、第九天我趴在偏房一處隱蔽的房頂上張望比被。院中可真熱鬧色难，春花似錦、人聲如沸等缀。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,850評論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽尺迂。三九已至笤妙，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間噪裕，已是汗流浹背蹲盘。一陣腳步聲響...
開封第一講書人閱讀 32,082評論 1贊 267
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留膳音，地道東北人召衔。一個月前我還...
沈念sama閱讀 46,571評論 2贊 362
代替公主和親
正文我出身青樓，卻偏偏與公主長得像严蓖，于是被迫代替她去往敵國和親薄嫡。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,666評論 2贊 350

無標(biāo)題文章

推薦閱讀更多精彩內(nèi)容