一.《1》全文搜索引擎捣鲸,目錄搜索引擎吁断,元搜索引擎
《2》工作原理:搜索引擎為了以最快的速度得到搜索結(jié)果擦俐,它搜索的內(nèi)容通常是預(yù)先整理好的網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)佣蓉。普通搜索酸舍,不能真正理解網(wǎng)頁(yè)上的內(nèi)容拉馋,它只能機(jī)械地匹配網(wǎng)頁(yè)上的文字榨为。真正意義上的搜索引擎惨好,通常指的是收集了互聯(lián)網(wǎng)上幾千萬(wàn)到幾十億個(gè)網(wǎng)頁(yè)并對(duì)網(wǎng)頁(yè)中的每一個(gè)文字(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫(kù)的全文搜索引擎随闺。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候日川,所有在頁(yè)面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁(yè)都將作為搜索結(jié)果被搜出來(lái)。在經(jīng)過(guò)復(fù)雜的算法進(jìn)行排序后矩乐,這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低龄句,依次排列。典型的搜索引擎三大模塊組成:
(一)信息采集模塊
信息采集器是一個(gè)可以瀏覽網(wǎng)頁(yè)的程序散罕,被形容為“網(wǎng)絡(luò)爬蟲”撒璧。它首先打開(kāi)一個(gè)網(wǎng)頁(yè),然后把該網(wǎng)頁(yè)的鏈接作為瀏覽的起始地址笨使,把被鏈接的網(wǎng)頁(yè)獲取過(guò)來(lái)卿樱,抽取網(wǎng)頁(yè)中出現(xiàn)的鏈接,并通過(guò)一定算法決定下一步要訪問(wèn)哪些鏈接硫椰。同時(shí)繁调,信息采集器將已經(jīng)訪問(wèn)過(guò)的URL存儲(chǔ)到自己的網(wǎng)頁(yè)列表并打上已搜索的標(biāo)記。自動(dòng)標(biāo)引程序檢查該網(wǎng)頁(yè)并為他創(chuàng)建一條索引記錄靶草,然后將該記錄加入到整個(gè)查詢表中蹄胰。信息收集器再以該網(wǎng)頁(yè)到超鏈接為起點(diǎn)繼續(xù)重復(fù)這一訪問(wèn)過(guò)程直至結(jié)束。一般搜索引擎的采集器在搜索過(guò)程中只取鏈長(zhǎng)比(超鏈接數(shù)目與文檔長(zhǎng)度的比值)小于某一閾值的頁(yè)面奕翔,數(shù)據(jù)采集于內(nèi)容頁(yè)面裕寨,不涉及目錄頁(yè)面。在采集文檔的同時(shí)記錄各文檔的地址信息派继、修改時(shí)間宾袜、文檔長(zhǎng)度等狀態(tài)信息,用于站點(diǎn)資源的監(jiān)視和資料庫(kù)的更新驾窟。在采集過(guò)程中還可以構(gòu)造適當(dāng)?shù)膯l(fā)策略庆猫,指導(dǎo)采集器的搜索路徑和采集范圍,減少文檔采集的盲目性绅络。
(二)查詢表模塊
查詢表模塊是一個(gè)全文索引數(shù)據(jù)庫(kù)月培,他通過(guò)分析網(wǎng)頁(yè),排除HTML等語(yǔ)言的標(biāo)記符號(hào)恩急,將出現(xiàn)的所有字或詞抽取出來(lái)杉畜,并記錄每個(gè)字詞出現(xiàn)的網(wǎng)址及相應(yīng)位置(比如是出現(xiàn)在網(wǎng)頁(yè)標(biāo)題中,還是出現(xiàn)在簡(jiǎn)介或正文中)衷恭,最后將這些數(shù)據(jù)存入查詢表此叠,成為直接提供給用戶搜索的數(shù)據(jù)庫(kù)。
(三)檢索模塊
檢索模塊是實(shí)現(xiàn)檢索功能的程序匾荆,其作用是將用戶輸入的檢索表達(dá)式拆分成具有檢索意義的字或詞拌蜘,再訪問(wèn)查詢表杆烁,通過(guò)一定的匹配算法獲得相應(yīng)的檢索結(jié)果牙丽。返回的結(jié)果一般根據(jù)詞頻和網(wǎng)頁(yè)鏈接中反映的信息建立統(tǒng)計(jì)模型简卧,按相關(guān)度由高到低的順序輸出。
二.《1》工具:微博視頻烤芦,新浪微博举娩,頭條文章,今日頭條
《2》話題:闊步新征程 為全球發(fā)展注入信心與力量——國(guó)際社會(huì)高度評(píng)價(jià)習(xí)近平主席在十四屆全國(guó)人大一次會(huì)議閉幕會(huì)上的重要講話
三.《1》百度輿情构罗,新浪輿情通铜涉,TOOM輿情監(jiān)測(cè)系統(tǒng),艾煤數(shù)據(jù)更新,Alphainfo碩智庫(kù)
《2》