[1]楊曉江,李麗娟,田俊華,李藝.面向基礎(chǔ)教育的Web資源垂直服務(wù)體系研究[J].數(shù)字鄉(xiāng)愿,2006,(7):53-57.
一蠢护、搜索引擎更加專業(yè)化
互聯(lián)網(wǎng)的發(fā)展讓資源得到更廣泛的共享惕蹄,與此同時(shí)資源不管在種類和數(shù)量上都呈爆炸式增長(zhǎng)绎狭。人們迫切需要從眾多資源中找到自己需要的資源关带,但目前搜索引擎的檢索結(jié)果往往并不全部符合需求侥涵,這就需要用戶依據(jù)自身經(jīng)驗(yàn)進(jìn)行二次檢索沼撕。搜索引擎就是利用關(guān)鍵字將計(jì)算機(jī)中存儲(chǔ)的數(shù)據(jù)與用戶需求進(jìn)行匹配,搜索結(jié)果覆蓋范圍大芜飘,這也有可能使得資源針對(duì)性變?nèi)酢?br>
通過(guò)使搜索引擎只服務(wù)于特定領(lǐng)域用戶务豺,提高檢索效果。楊曉江提出Web資源垂直服務(wù)體系[1]就是為用戶提供特定領(lǐng)域的web資源服務(wù)嗦明。
基礎(chǔ)教育搜索引擎的工作流程如下: 首先, 網(wǎng)絡(luò)蜘蛛根據(jù)某種策略在互聯(lián)網(wǎng)上自動(dòng)尋找基礎(chǔ)教育相關(guān)的資源, 下載并保存新發(fā)現(xiàn)的資源及其URL笼沥;然后, 經(jīng)過(guò)資源預(yù)處理程序除去其中不相關(guān)的信息 ( 噪音) 娶牌,再交由文檔自動(dòng)分類器對(duì)文檔進(jìn)行過(guò)濾奔浅、 分類處理; 接著交由文檔標(biāo)引程序建立倒排索引诗良, 形成基礎(chǔ)教育搜索引擎索引數(shù)據(jù)庫(kù)汹桦, 這樣,當(dāng)用戶向基礎(chǔ)教育搜索引擎提交查詢請(qǐng)求時(shí)鉴裹,用戶檢索子系統(tǒng)就可以從基礎(chǔ)教育資源索引數(shù)據(jù)庫(kù)中檢索出相匹配的資源及其URL舞骆,用戶根據(jù)此URL就能訪問(wèn)Web上的原始資源。 其中,径荔,文檔自動(dòng)分類器需要事先對(duì)人工提供的已分類樣本文檔進(jìn)行機(jī)器學(xué)習(xí)督禽,從中提取出基礎(chǔ)教育資源的各類別特征,形成基礎(chǔ)教育資源特征庫(kù)总处。 在此基礎(chǔ)上, 文檔自動(dòng)分類器即可對(duì)網(wǎng)絡(luò)蜘蛛下載下來(lái)的資源進(jìn)行判斷和自動(dòng)分類狈惫。[1]
其中涉及到的關(guān)鍵技術(shù)有:
網(wǎng)絡(luò)蜘蛛:不斷從互聯(lián)網(wǎng)上爬取新資源,同時(shí)定期更新資源辨泳。
文檔預(yù)處理:從互聯(lián)網(wǎng)上獲取的資源格式各種各樣虱岂,每一個(gè)格式的資源都要有一個(gè)解析器程序,這樣才能忽略各種奇怪的符號(hào)菠红,提取有用的信息第岖。
中文分詞:將句子分解成一個(gè)個(gè)詞語(yǔ),判斷詞性和命名實(shí)體(比如將“iphone 6”作為一個(gè)詞试溯,而不是 “iphone” 一個(gè)蔑滓, “6” 一個(gè))。
文檔特征提扔鼋省:目的是從文檔中提取出最能夠表達(dá)文檔內(nèi)容和特性的關(guān)鍵信息, 從而在準(zhǔn)確描述文檔的同時(shí), 盡可能減少計(jì)算機(jī)的計(jì)算工作量键袱。[1]
文檔自動(dòng)分類:根據(jù)文檔特征,對(duì)數(shù)字化文檔資源進(jìn)行分類摹闽。
文檔實(shí)時(shí)自動(dòng)摘要:文檔自動(dòng)摘要能對(duì)一篇網(wǎng)絡(luò)文檔自動(dòng)提取其內(nèi)容摘要, 摘要文本的長(zhǎng)度可以根據(jù)需要調(diào)節(jié)蹄咖。 摘要結(jié)果可以用于在羅列檢索結(jié)果時(shí), 讓用戶迅速地瀏覽到該資源的內(nèi)容提要。[1]
分布式信息檢索:“ 分布式” 包括索引數(shù)據(jù)的多節(jié)點(diǎn)分布和查詢?nèi)蝿?wù)執(zhí)行的多節(jié)點(diǎn)分布兩個(gè)方面付鹿。 分布式檢索系統(tǒng)由一個(gè)中心服務(wù)器負(fù)責(zé)接受用戶的檢索請(qǐng)求澜汤、 分發(fā)檢索請(qǐng)求到具體的查詢?nèi)蝿?wù)執(zhí)行子節(jié)點(diǎn)蚜迅、 接收合并的查詢結(jié)果并返回給用戶。[1]