第一章
1.Web信息檢索的特點是什么渐尿?
答:(1)規(guī)模大。人類生產(chǎn)40億網(wǎng)頁[Google,2004]毡熏,而書才1億本;中國有3億網(wǎng)頁[天網(wǎng),2004]侣诵。
(2)內(nèi)容不穩(wěn)定痢法。50%網(wǎng)頁的平均生命周期約為50天[Cho and Garcia-Molina,2000, Cho,2002]。
(3)與生俱來的數(shù)字化杜顺、網(wǎng)絡(luò)化财搁。蜂擁而至、魚目混珠躬络。
(4)要求高并發(fā)(1000次/s)尖奔、響應(yīng)快(1s)。
2. 簡述獲取網(wǎng)頁標(biāo)題最簡單的辦法。
答:從網(wǎng)頁中的標(biāo)題標(biāo)簽< title >< /title >中提取提茁。
3. 簡述“網(wǎng)頁快照”或“歷史網(wǎng)頁“的作用淹禾。
答:(1)網(wǎng)頁快照能保留網(wǎng)頁修改前的內(nèi)容信息。
(2)網(wǎng)頁快照能體現(xiàn)蜘蛛爬行網(wǎng)站的頻率茴扁。
(3)網(wǎng)頁快照能作為現(xiàn)有網(wǎng)站內(nèi)容和蜘蛛抓取內(nèi)容的參照铃岔。
(4)網(wǎng)頁快照能體現(xiàn)網(wǎng)站階段性的內(nèi)容更新狀況。
(5)網(wǎng)頁快照能體現(xiàn)階段搜索引擎信任度峭火。
4. Archie是搜索引擎鼻祖毁习,簡述Archie具備的搜索引擎相關(guān)功能。
答:(1)定期搜集卖丸,并分析FTP系統(tǒng)中存在的文件信息
(2)大型數(shù)據(jù)庫 + 檢索方法
(3)通過文件名纺且,檢索所在FTP服務(wù)器的地址
(4)搜索引擎鼻祖:自動搜集信息、建立索引坯苹,提供檢索服務(wù)
5.敘述搜索引擎的發(fā)展趨勢隆檀。
答:(1)文本自動分類技術(shù)
(2)人工分類 + 自動爬取
(3) 互聯(lián)網(wǎng)信息:網(wǎng)頁和文件、新聞組粹湃、論壇恐仑、專業(yè)數(shù)據(jù)庫等
(4)通用搜索引擎無法全覆蓋
(5)主題搜索引擎:個性化搜索引擎、問答式搜索引擎等
(6)通用搜索引擎:出現(xiàn)分工協(xié)作为鳄,如搜索引擎技術(shù)和搜索數(shù)據(jù)庫服務(wù)提供商
(7)搜索引擎優(yōu)化空間似乎變大裳仆,但是難度不減。
(8)搜索引擎推廣正在向網(wǎng)絡(luò)推廣轉(zhuǎn)變孤钦,
(9)線上推廣渠道和線下推廣渠道加速融合歧斟。
(10)垂直搜索引擎領(lǐng)域的崛起。
(11)文本文檔搜索領(lǐng)域偏形、多媒體搜索引擎的崛起静袖。
第二章
1. 用戶向搜索引擎提交查詢詞,搜索引擎在“可以接受的時間”內(nèi)返回和該用戶查詢匹配的網(wǎng)頁信息列表俊扭。請簡述網(wǎng)頁信息列表的組成队橙?“可以接受的時間”應(yīng)滿足什么要求?
答:(1)在“可以接受的時間”內(nèi)返回和該用戶查詢匹配的網(wǎng)頁信息列表,記作L萨惑。包括:標(biāo)題捐康、URL和摘要。
(2)“可以接受的時間”即響應(yīng)時間庸蔼。系統(tǒng)應(yīng)該在額定吞吐率的情況下保證秒級響應(yīng)時間解总。不僅滿足單個查詢,且在系統(tǒng)設(shè)計負(fù)載的情況下滿足所有查詢姐仅。
2. 簡述現(xiàn)代大規(guī)模高質(zhì)量搜索引擎的工作流程花枫。
答:網(wǎng)頁搜集刻盐、預(yù)處理和查詢服務(wù)。
3. 形成倒排文件即“預(yù)處理”乌昔,請簡述其流程隙疚。
答: 形成倒排文件即“預(yù)處理”壤追,流程如下:
? ? (1)關(guān)鍵詞的提瓤牡馈;
? ? (2)重復(fù)或轉(zhuǎn)載網(wǎng)頁的消除行冰;
? ? (3)鏈接分析溺蕉;
? ? (4)網(wǎng)頁重要程度的計算。
4. 系統(tǒng)網(wǎng)頁數(shù)據(jù)庫維護(hù)的基本策略包括增量搜集悼做。簡述增量搜集的過程優(yōu)點缺點
答:(1)開始搜集一批疯特,往后1)搜集新網(wǎng)頁,2)搜集改變過的網(wǎng)頁肛走,3)刪除不存在的網(wǎng)頁;
(2)50%網(wǎng)頁的平均生命周期約為50天[Cho and Garcia-Molina,2000];
(3)優(yōu)點:時新性高漓雅,例:30萬網(wǎng)頁,1臺PC朽色,0.5天搜集完;
(4)缺點:系統(tǒng)實現(xiàn)比較復(fù)雜邻吞,包括:搜集過程、建索引過程.
5. 爬取屬于抓取網(wǎng)頁的一種策略葫男。如果將網(wǎng)頁集合看成有向圖抱冷,請說明爬取的過程。
答: 搜集過程:
(1) 從給定起始URL集合S(“種子”)開始梢褐;
(2) 沿著網(wǎng)頁中的鏈接旺遮,按照先深、先寬盈咳、或者某種策略遍歷耿眉;
(3)不停的從S中移除URL,下載網(wǎng)頁并解析其中的超鏈接URL鱼响,將未訪問過的URL加入集合S鸣剪。
(4)搜集過程想象為:一只或多只蜘蛛(spider)在蜘蛛網(wǎng)(Web)上爬行(crawl)。
第三章
1. 作為一個小型搜索引擎系統(tǒng)热押,TSE的特點是什么西傀?
答:特點如下:
(1)適合教學(xué)
(2)很小:可用普通臺式機(jī)搭建
(3)簡單:具有程序設(shè)計基礎(chǔ)即可理解
(4)功能相對完整:反映一個大規(guī)模搜索引擎的主要成分
2. 對于搜索引擎而且桶癣,如何首先搜集重要的網(wǎng)頁拥褂,好的搜集策略是什么?經(jīng)驗特征是什么牙寞?
答:搜索引擎不可能搜集所有網(wǎng)頁
[Lawrence and Giles,1998]
好的搜集策略:
分布并行工作
優(yōu)先搜集重要網(wǎng)頁
經(jīng)驗特征:
(1) 網(wǎng)頁的入度大饺鹃,被其他網(wǎng)頁引用次數(shù)多
(2) 某網(wǎng)頁的父網(wǎng)頁入度大
(3) 網(wǎng)頁的鏡像度高莫秆,熱門
(4) 網(wǎng)頁的目錄深度小,易于瀏覽
3. 請描述網(wǎng)頁搜集的流程悔详。
答:網(wǎng)頁搜集的流程如下:
從URL庫(起始種子)解析Web服務(wù)器地址
建立連接镊屎、發(fā)送請求和接收數(shù)據(jù)
網(wǎng)頁 -> 原始網(wǎng)頁庫,鏈接信息 -> 網(wǎng)頁結(jié)構(gòu)庫
待抓取的URL放入URL庫
4. 請簡述spider與gatherer的區(qū)別茄螃。
答:spider
網(wǎng)頁搜集子系統(tǒng)
可用C/C++缝驳、Java,Python等編寫
gatherer
爬取器
spider啟動多個gatherer(進(jìn)程或線程)完成一篇網(wǎng)頁抓取
5. 請簡述網(wǎng)頁重復(fù)搜集的定義和原因归苍。
答:定義:網(wǎng)頁沒有更新用狱,被搜集程序重復(fù)訪問
原因:搜集程序沒有清楚記錄已經(jīng)訪問過的URL,域名與IP多重對應(yīng)關(guān)系
第四章
1、簡述天網(wǎng)格式的優(yōu)點和缺點拼弃。
答:優(yōu)點:容錯性好夏伊,局部性數(shù)據(jù)損壞不會擴(kuò)散
缺點:不能按照網(wǎng)頁url,隨機(jī)存取其所指向的網(wǎng)頁
2. “回溯”能改進(jìn)正向減字最大匹配法的性能吻氧,請說明“回溯”的流程溺忧。
答:(1)從左到右切分一遍句子
(2)從右到左切分一遍句子
(3)對兩遍切分結(jié)果不同的字符串,用回溯法重新處理
3.分析網(wǎng)頁的結(jié)果是什么盯孙?
答:形成文檔編號到索引詞的對應(yīng)關(guān)系表
記錄組成
文檔編號
索引詞號
索引詞在文檔中的位置
索引詞載體信息(索引詞的字體鲁森、大小寫等,用于查詢結(jié)果的排序)
4. 針對基于統(tǒng)計的分詞方法镀梭,請簡述實際應(yīng)用的策略刀森?并分析這些策略的優(yōu)點。
答:使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞
使用統(tǒng)計方法識別新的詞报账,即將串頻統(tǒng)計和串匹配結(jié)合起來
匹配分詞:切分速度快研底、效率高
無詞典分詞:結(jié)合上下文識別生詞、自動消除歧義
5. 請簡述基于字符串匹配的分詞方法的基本思想透罢。
答:按照某種策略榜晦,將待分析漢字串與充分大詞典中的詞條進(jìn)行匹配,若在詞典中找到某個漢字串羽圃,則匹配成功(識別詞)
6. 針對天網(wǎng)格式缺點乾胶,請簡述預(yù)處理流程。
答:第一步:為原始網(wǎng)頁建立索引朽寞,實現(xiàn)索引網(wǎng)頁庫识窿,索引可用于網(wǎng)頁快照
第二步:網(wǎng)頁切分,將每一篇網(wǎng)頁轉(zhuǎn)化為一組詞的集合
第三步:將網(wǎng)頁到索引詞的映射脑融,轉(zhuǎn)化為索引詞到網(wǎng)頁的映射喻频,形成倒排文件
? 第五章
1. TSE系統(tǒng)為提高響應(yīng)時間,采取了哪些措施肘迎?取得什么效果甥温?
答: (1)索引詞表锻煌、用戶近期查詢結(jié)果駐留在內(nèi)存中
(2)如果內(nèi)存足夠大,所有倒排表項也可以駐留在內(nèi)存中
(3)大數(shù)據(jù)量和大訪問量(如1000個查詢/秒)姻蚓,實現(xiàn)秒級響應(yīng)
2. 在TSE系統(tǒng)中宋梧,用戶界面主要負(fù)責(zé)和用戶直接接觸的事件,具體包含哪些工作狰挡?
答: (1) 獲取用戶的查詢請求捂龄,提交給查詢代理;通過HTML語言的<FORM>來實現(xiàn)
(2)查詢代理檢索索引詞表和倒排表圆兵,產(chǎn)生結(jié)果輸出給用戶跺讯;主要用到動態(tài)網(wǎng)頁生成技術(shù)和動態(tài)摘要算法
(3)記錄日志,包括用戶查詢短語殉农、查詢時間等信息。
第六章
1. 相對于天網(wǎng)1.0局荚,天網(wǎng)2.0進(jìn)行了哪些較大的改進(jìn)超凳?
答: 主要改進(jìn)如下:
天網(wǎng)1.0:采用集中式系統(tǒng)結(jié)構(gòu),搜索量為百萬級
天網(wǎng)2.0:
(1)重新設(shè)計系統(tǒng)結(jié)構(gòu)耀态、修改實現(xiàn)方法
(2)包括搜集子系統(tǒng)轮傍、索引子系統(tǒng)、檢索子系統(tǒng)三個部分
(3)可擴(kuò)展Web信息搜集子系統(tǒng)是核心首装,由N個獨立自主的集中式系統(tǒng)和協(xié)調(diào)模塊組合而成
2. 天網(wǎng)2.0搜集系統(tǒng)的主控結(jié)構(gòu)由哪些進(jìn)程組成创夜?
答:(1)主進(jìn)程
(2)robots存取分析進(jìn)程
(3)URL過期檢查進(jìn)程
(4)數(shù)據(jù)庫
(5)結(jié)果插入進(jìn)程
(6)NewUrl處理進(jìn)程
3. 在負(fù)載平衡的條件下,保證系統(tǒng)具有動態(tài)調(diào)度性仙逻,可采用哪些方法驰吓?
答: (1)第一種方法:散列函數(shù)動態(tài)調(diào)度url
(2)第二種方法
結(jié)合第一種方法,每個節(jié)點記錄著一張www主機(jī)表
表在各個節(jié)點是相同的系奉,記錄包含一個www主機(jī)對應(yīng)的節(jié)點
(3)第三種方法:邏輯上二級映射
第七章
1. 請比較網(wǎng)頁凈化和消重的相同點與不同點檬贰。
答: 相同點:
(1)大規(guī)模搜索引擎系統(tǒng)預(yù)處理的重要環(huán)節(jié)
(2)建索引一般在消重后的網(wǎng)頁集上進(jìn)行
不同點:
網(wǎng)頁凈化:
(1)識別和消除網(wǎng)頁內(nèi)的噪音內(nèi)容(如廣告、版權(quán)信息等)
(2)提取網(wǎng)頁的主題缺亮、主題相關(guān)的內(nèi)容
消重:去除網(wǎng)頁集合中主題內(nèi)容重復(fù)的網(wǎng)頁
2. 網(wǎng)頁表示有哪幾種方法翁涤?并舉例說明。
答:(1)抽象表示:從網(wǎng)頁制作范圍(如HTML)出發(fā)萌踱,構(gòu)造能體現(xiàn)網(wǎng)頁內(nèi)容結(jié)構(gòu)葵礼、內(nèi)容重要性等的表示模型,最常用的抽象方法表示并鸵,是構(gòu)造網(wǎng)頁的標(biāo)簽樹
(2)量化表示:從計算機(jī)處理出發(fā)鸳粉,挖掘網(wǎng)頁中的隱含信息,生成用于計算的表示模型能真,如向量空間模型
3.請簡述DocView模型由哪些數(shù)據(jù)組成赁严?
答: 1扰柠、網(wǎng)頁的元數(shù)據(jù)
a. 網(wǎng)頁標(biāo)識:使用網(wǎng)頁的URL作為網(wǎng)頁唯一性標(biāo)識
b. 網(wǎng)頁類型:主題網(wǎng)頁(topic)、Hub網(wǎng)頁(hub)疼约、圖片網(wǎng)頁(pic)
c. 內(nèi)容類別:從語義上對網(wǎng)頁的內(nèi)容進(jìn)行分類
d.標(biāo)題卤档、關(guān)鍵詞、摘要:概括描述Web文檔內(nèi)容
2程剥、網(wǎng)頁的內(nèi)容數(shù)據(jù)
a. 正文:原始網(wǎng)頁中真正描述主題的部分
b. 相關(guān)鏈接:在本文網(wǎng)頁中只想與正文內(nèi)容相關(guān)的網(wǎng)頁的鏈接劝枣,而非廣告等噪音鏈接
4. 在網(wǎng)頁量化表示的過程中,存在“高頻無關(guān)詞”织鲸,請說明“高頻無關(guān)詞”的定義舔腾、特點和處理方式。
答:(1)定義:在文檔中詞頻很高搂擦,但沒有主題描述能力和區(qū)別能力稳诚。如:“中國”、“可以”
(2)特征:在大量的文檔中都可以高頻詞的角色出現(xiàn)
(3)處理:通過詞頻和文檔頻率瀑踢,確定某個集合的“高頻無關(guān)詞”集
第八章
1. 請簡述索引剪枝的目的扳还。
答:從減少倒排索引的大小、查詢處理時盡量少的處理數(shù)據(jù)橱夭,這兩方面來提升查詢的處理速度氨距。
2. 請簡述倒排索引壓縮的優(yōu)點和缺點。
答:優(yōu)點:減小倒排項數(shù)據(jù)長度棘劣、內(nèi)存和I/O帶寬的使用
缺點:對壓縮數(shù)據(jù)解碼俏让,增加CPU時間
第九章
1. 檢索評估的基礎(chǔ)是測試集,請簡述測試集的概念及組成茬暇。
答:概念:一種在規(guī)范化環(huán)境中測試系統(tǒng)效能的機(jī)制首昔。
組成:測試文檔集、查詢問題而钞、相關(guān)判斷結(jié)果三個部分沙廉。
2. 一般而言,技術(shù)評估有哪幾個層次臼节?
答:
系統(tǒng)表現(xiàn):
(1)評估中用戶關(guān)心若干事情撬陵,記做F={f1, f2,…, fn}
(2)其中的元素可以是相關(guān)性、新穎性网缝、完整性巨税、速度等
測試指標(biāo):
(1)測試一些指標(biāo),記做G={g1, g2,…, gn}
(2)希望對G的測試結(jié)果和F有好的對應(yīng)
設(shè)計指標(biāo):在設(shè)計系統(tǒng)的時候粉臊,用P={p1, p2,…, pn}表示實現(xiàn)程度對G貢獻(xiàn)的關(guān)系
非主觀題
判斷題
1草添、 信息檢索系統(tǒng)返回結(jié)果的排序,稱為“檢索排序”扼仲,隱含其中各條目的順序远寸,反映結(jié)果和查詢的相關(guān)程度抄淑。√
2驰后、斯坦福Google小組的PageRank技術(shù)和IBM公司Clever小組的HITS技術(shù)都同時才用網(wǎng)頁的“入度”和“出度”兩個指標(biāo)肆资。√
3灶芝、持續(xù)收集并長期保存Web頁郑原,具有重要的史料價值和社會意義∫固椋√
4犯犁、Minerva是美國最早保存Web信息的機(jī)構(gòu)之一∨鳎×
5酸役、假設(shè)n為并行收集系統(tǒng)的節(jié)點數(shù),則節(jié)點間URL的劃分策略可抽象為將目標(biāo)設(shè)定在n上晓避,形成一個“優(yōu)化的”URLs-劃分簇捍。√
6、 在分布式Web搜集系統(tǒng)結(jié)構(gòu)中找田,調(diào)度模塊用于維護(hù)協(xié)調(diào)進(jìn)程的IP地址和端口號腋妙。√
7伐脖、在提出的5種網(wǎng)頁消重算法中,算法3是對算法4的放松「阋×
8、 在提出的5種網(wǎng)頁消重算法中远搪,算法5比算法2嚴(yán)格劣纲。×
9谁鳍、天網(wǎng)的檢索系統(tǒng)設(shè)計原則癞季,一是追求系統(tǒng)的快速響應(yīng);二是通過集成框架倘潜,有效地把各種有利于改善檢索效果的技術(shù)集成绷柒。√
10涮因、現(xiàn)代搜索引擎普遍使用全文索引技術(shù)废睦,即網(wǎng)頁中所有詞都參與索引⊙荩√
11嗜湃、如何講一篇網(wǎng)頁比另外一篇網(wǎng)頁重要奈应?基本思想是參照科技文獻(xiàn)重要性的評估方式,即被引用多的就是重要的购披≌日酰√
12、全面網(wǎng)頁搜集 + 局部更新”屬于一種搜索引擎采用的抓取網(wǎng)頁策略今瀑,其特點是每次抓取都進(jìn)行全面網(wǎng)頁搜集程梦。×
13橘荠、在與服務(wù)器建立連接時屿附,Socket必須綁定到一個本地端口和本地地址上「缤√
14挺份、 搜索引擎有可能搜集所有網(wǎng)頁≈福×
15匀泊、由于具有詞與詞無分隔符、詞匯由多個漢字組成朵你、語句連續(xù)書寫等特點各聘,中文較英文更難分詞÷找剑×
16躲因、 在基于字符串匹配的分詞方法中,字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度忌傻〈舐觯√
17、 在形成查詢結(jié)果集合時水孩,需要用索引替代排序镰矿,即先搜集到的網(wǎng)頁以小的網(wǎng)頁編碼,索引項自動保持順序俘种〕颖辏√
18、在形成查詢結(jié)果集合時安疗,第一步是執(zhí)行檢索算法抛杨。×
單項選擇題
1荐类、中國Web信息博物館Web InfoMall提供了4種視圖怖现,其中,可用于歷史網(wǎng)頁挖掘與檢索挖掘的是
答:屬性視圖
2、根據(jù)Web InfoMall需要屈嗤,將存儲數(shù)據(jù)分為多種形式潘拨,關(guān)于索引及中間數(shù)據(jù)的描述,正確的是
答:是動態(tài)數(shù)據(jù)饶号,包含:URL索引铁追、倒排索 引、鏈接圖等茫船,難使用同一種方法來存儲琅束。
3、從事信息檢索評估的中國機(jī)構(gòu)是
答:CWIRF
4算谈、關(guān)于TREC的錯誤描述是
答:以大規(guī)模案例集為基礎(chǔ)涩禀,推動信息檢索的研究。
5然眼、在HTML Tree結(jié)構(gòu)中艾船,每個結(jié)點(內(nèi)容塊)都有相應(yīng)的描述信息,下列選項中不屬于這些描述信息的是
答:結(jié)果集
6高每、在設(shè)計適于查詢的網(wǎng)頁索引結(jié)構(gòu)時屿岂,采用了緩存技術(shù),關(guān)于緩存的錯誤描述是
答:二分查找很好利用緩存鲸匿,緩存缺失率低爷怀。
7、混合索引的本質(zhì)是
答:建立倒排索引過程中的一種索引詞選擇方法與技術(shù)带欢。
8霉撵、不屬于小搜索引擎程序的是
答:OPnet
9、下列選項中洪囤,最適合TSE的高性能并行計算機(jī)系統(tǒng)種類是
答:機(jī)群
10、下列關(guān)于可擴(kuò)展搜集子系統(tǒng)的描述撕氧,錯誤的是
答:加速比即n個節(jié)點協(xié)同工作搜集的網(wǎng)頁數(shù)與單節(jié)點在同樣時間段搜集網(wǎng)頁數(shù)之比瘤缩。
11、大型商業(yè)搜索引擎一般都提供“主動提交”的網(wǎng)頁抓取功能伦泥,關(guān)于“主動提交”剥啤,下列說法錯誤的是
答:視為極端的先寬搜索。
12不脯、原始網(wǎng)頁集合S經(jīng)過預(yù)處理后府怯,形成對S的一個子集的元素的某種內(nèi)部表示,下列選項中防楷,不屬于元素的是
答:索引號
13牺丙、一個URL由6個部分組成,其中,Scheme表示
答:協(xié)議名稱
14冲簿、在天網(wǎng)存儲格式中粟判,原始網(wǎng)頁庫由若干記錄組成,下列選項中不屬于記錄的是
答:尾部
15峦剔、對于現(xiàn)代漢語來說档礁,如果選擇ASM(d,a,m)模型,則最佳選擇是
答:m=+
16吝沫、引入倒排索引的根本原因是
答:一般的數(shù)據(jù)庫系統(tǒng)不能快速響應(yīng)大量的用戶請求呻澜。
多項選擇題
1、對搜索引擎的評估可以分為6個級別惨险,屬于以用戶為中心的級別包括:
答:輸出級羹幸、應(yīng)用級、社會級
2平道、關(guān)于動態(tài)索引剪枝方法睹欲,下列說法正確的是
答:在處理查詢的過程中,盡量少的讀取或處理査詢詞對應(yīng)倒排鏈的數(shù)據(jù)一屋。
剪枝過程發(fā)生在査詢處理階段窘疮,知道的查詢信息較多,更容易計算信息的重要度冀墨。
一般不會影響最終查詢的效果闸衫。
依賴于倒排索引的結(jié)構(gòu)與排序函數(shù)。
3诽嘉、現(xiàn)有的剪枝方法蔚出,可從多個方面來提升查詢的處理速度,包括
答:提前結(jié)束查詢處理
倒排鏈內(nèi)數(shù)據(jù)的跳躍處理
去除查詢詞
盡早結(jié)束文檔打分
4虫腋、“權(quán)值傳遞規(guī)則”有兩個性質(zhì)骄酗,這兩個屬性的作用是
答:保證規(guī)則正確
權(quán)值結(jié)果一一對應(yīng)
5、在網(wǎng)頁凈化與消重時悦冀,可將網(wǎng)頁分為主題網(wǎng)頁趋翻、圖片網(wǎng)頁和Hub網(wǎng)頁,關(guān)于Hub網(wǎng)頁的正確說法包括
答:提供指向相關(guān)網(wǎng)頁的超鏈盒蟆,超鏈密集踏烙。
網(wǎng)頁中間區(qū)域hub內(nèi)容塊包含的詞項數(shù),與網(wǎng)頁中間區(qū)域詞項數(shù)的比值历等,判斷是否hub類型讨惩。
6、因為無法搜集所有的網(wǎng)頁寒屯,所以優(yōu)先搜集用戶感興趣荐捻、或重要性較高的信息,下列屬于解決方案的是
答:加權(quán)的啟發(fā)式搜索算法
為系統(tǒng)配置導(dǎo)向詞
域名解析
7、在天網(wǎng)分布式搜集系統(tǒng)P_Arthur體系結(jié)構(gòu)中靴患,URL調(diào)度模塊包括
答:King仍侥、queen、Mosquito
8鸳君、理想狀態(tài)下农渊,高效率搜索引擎用最少的資源完成網(wǎng)頁搜集,下列選項中或颊,屬資源的是
答:設(shè)備砸紊、帶寬、時間
9囱挑、域名與IP的對應(yīng)關(guān)系存在4種情況醉顽,下列情況中,可能導(dǎo)致重復(fù)搜集的是
答:一對一平挑、一對多游添、多對一、多對多
10通熄、首先搜集重要的網(wǎng)頁可以采用經(jīng)驗特征唆涝,下列經(jīng)驗特征,在搜索引擎開始工作時是無法確定的
答:網(wǎng)頁的入度大唇辨,被其他網(wǎng)頁引用次數(shù)多廊酣。
某網(wǎng)頁的父網(wǎng)頁入度大。
網(wǎng)頁的鏡像度高赏枚,熱門亡驰。
11、針對漢語的分詞饿幅,下列說法正確的是
答:正向最小匹配和逆向最小匹配很少用凡辱。
逆向匹配的切分精度,略高于正向匹配栗恩,歧義較少煞茫。
填空題
1、可用隨機(jī)? ? 沖浪? ? 模型來作為PageRank的理論基礎(chǔ)摄凡,該模型描述網(wǎng)絡(luò)用戶對網(wǎng)頁的訪問行為。
2蚓曼、鏈接分析可以有效地計算網(wǎng)頁的重要程度亲澡,但是帶有明顯的偏向,即不重視新出現(xiàn)的網(wǎng)頁纫版;因此床绪,需要補(bǔ)償這個問題,從兩個方面考慮:? ? ? ? 用戶行為? ? 和新詞的產(chǎn)生。
3癞己、Web InfoMall 2.0是一個大規(guī)模的Web? ? 歷史網(wǎng)頁? ? ? 倉儲系統(tǒng)膀斋。
4、索引詞的? ? ? 倒排鏈? ? 用于保存出現(xiàn)這個詞的文檔號列表痹雅、詞的統(tǒng)計信息仰担,如:次數(shù)、位置等绩社。
5摔蓝、倒排項是一個三元組,包括:? ? 文檔號? ? 愉耙、詞在文檔內(nèi)的詞頻和詞在文檔中的出現(xiàn)位置贮尉。
6、在分布式Web搜集系統(tǒng)結(jié)構(gòu)中朴沿,? ? 協(xié)調(diào)? ? 進(jìn)程之間兩兩建立起連接猜谚,形成邏輯全互連關(guān)系,直接傳遞它們之間的交叉URL赌渣。
7魏铅、在評估海量網(wǎng)頁搜集系統(tǒng)的性能是,涉及四個主要參數(shù)锡垄,其中沦零,B 表示網(wǎng)絡(luò)連接的? ? ? ? 系統(tǒng)和internet之間? ? ? ? 帶寬。
8货岭、消重算法的基礎(chǔ)是:搜集并分析一篇網(wǎng)頁時路操,提取關(guān)鍵詞,并賦予每個關(guān)鍵詞一個權(quán)值千贯,權(quán)值構(gòu)成一個? ? ? ? 向量空? ? ? ? 間屯仗,用來表示網(wǎng)頁。
9搔谴、DocView模型在網(wǎng)頁自動分類中的應(yīng)用及實驗分析中魁袜,對分類效果的評價,采用傳統(tǒng)的查準(zhǔn)率敦第、? ? ? ? 查全率? ? ? ? 和F1值峰弹。
10、索引網(wǎng)頁庫? ? ? ? 的任務(wù)是:給定一個URL芜果,在原始網(wǎng)頁庫中定位到該URL所指向的記錄鞠呈。
11、網(wǎng)頁分析是將一個文檔表示為特征項右钾,? ? ? ? 中文自動切詞而是分析網(wǎng)頁的前提蚁吝。
12旱爆、搜索引擎是一個? ? ? 網(wǎng)絡(luò)應(yīng)用? ? ? ? 軟件系統(tǒng)。
13窘茁、現(xiàn)行最有效的數(shù)據(jù)結(jié)構(gòu)是? ? ? 倒排文件? ? ? ? 怀伦,即用文檔中關(guān)鍵詞作為索引,文檔作為索引目標(biāo)山林。
14房待、在與服務(wù)器建立連接時,? ? ? 通信? ? ? ? 由消息組成捌朴,消息在兩個“進(jìn)程的Socket”間傳遞吴攒。
15、用戶輸入的? ? 搜索? ? ? ? 是詞組或自然語句砂蔽,而不是詞匯洼怔。
16、提取關(guān)鍵詞的方式左驾,先從? ? ? ? 搜索? ? ? 輸入中提取關(guān)鍵詞镣隶,接著提取關(guān)鍵詞后再擴(kuò)充。