五 搜索引擎的查詢系統(tǒng)

查詢系統(tǒng)直接面對用戶,在接受用戶的查詢請求后,通過檢索,排序及摘要提取等計算,將結(jié)果組織成搜索結(jié)果返回給用戶

特點:快速,準確,全面(效率,效果)

1.1 信息熵

如數(shù)據(jù)結(jié)構(gòu)的huffMan編碼,為不同詞頻的詞頻創(chuàng)建不同長度的前綴編碼

信息熵在信息論中稱為消息X的熵,其含義是信息集X發(fā)出任意一個隨機事件的平均信息量
通過熵闡明概率和信息的關系.變量的不確定性越大,熵也就越大,將其搞清楚所需要的信息量也就越大

1.2 檢索和查詢的區(qū)別

查詢的結(jié)果是搜索結(jié)果網(wǎng)頁;而檢索結(jié)果是與查詢詞相關的文檔列表
查詢相對查詢系統(tǒng)而言;檢索相對于索引系統(tǒng)而言

1.3 檢索詞和查詢詞的區(qū)別

用戶輸入查詢詞,通過查詢系統(tǒng)分詞提交給檢索代理"檢索分詞"

1.4 自動文本摘要

從文檔中自動提取一個正文片段

2 網(wǎng)頁信息檢索

檢索數(shù)據(jù)來源于網(wǎng)頁索引庫(網(wǎng)頁對象被索引入庫的全過程),網(wǎng)頁信息檢索輸出是一組文檔編號.

2.1 早期檢索模型

"布爾模型"(Boolean Models)也稱集合模型

采用AND,OR,NOT等邏輯運算符組成的邏輯表達式.通過布爾運算進行檢測的簡單匹配模型.

易于實現(xiàn),速度快.但是沒有考慮文檔和關鍵詞的相關性,沒有區(qū)分查詢詞權(quán)重問題.放棄了效果(出現(xiàn)次數(shù)排序或者優(yōu)先詞問題),僅僅考慮效果

2.2 向量空間模型(Vector Space Models)

向量空間模型 主要關心的是效果而非效率.

提出了將查詢詞和文檔按照關鍵詞唯獨分別向量化,然后通過計算這兩個向量之間夾角的方法得到文檔和關鍵詞的相似度.從而優(yōu)先檢索相似度大的文檔,并進行排序

三個步驟
(1) 把原始查詢和文檔看作文本,使用同樣的向量化過程分別得到查詢向量和文檔向量
(2) 通過計算向量相似度的方法計算原始查詢和文檔的相似度
(3) 按照相似度從大到小進行排序,返回給用戶

將不同的關鍵詞看作不同維度,那么每個文檔關鍵詞進行高向量化得到向量中的每個分量可以理解為向量在關鍵詞維度上的投影.

eg

三維空間

通過每個關鍵詞出現(xiàn)次數(shù)比
走進,搜索引擎,學習 = (1/4,2/4,1/4)

對于文檔進行同樣的處理,那么得到類似一個空間向量

然后計算夾角,夾角越小,說明相似度越高,排名越高,返回給用戶的網(wǎng)頁顯示也就越靠前

因為這樣會產(chǎn)生浮點數(shù)計算的問題,所以使用詞頻進行處理
TF/IDF方法進行向量化工作,然后計算文檔和查詢詞相似度的問題.

可以使用哈希表的方法快速找到兩個向量相同分量的非0值進行計算

2.3 關鍵詞權(quán)重 量化方法 TF/IDF

熵最大限度的壓縮冗余信息對于衡量關鍵詞權(quán)重具有特殊意義

具體參考自制簡單搜索引擎

2.4 搜索引擎采用的檢索模型

鎖搜引擎采用布爾模型和空間向量空間模型結(jié)合的方法進行信息檢索,布爾模型高效且易于實現(xiàn);空間向量模型能提高檢索相似度,改善禪尋效果.

一個完整檢索過程

2.5 多文檔列表求交計算

三種情況
(1) 查詢單個詞
(2) 查詢多個詞: 空格隔離
(3) 查詢一個詞:由于分詞形成多詞查詢

對23情況進行文檔求交.

使用"最佳歸并樹算法"

基本思路:越短的文檔列表越早參與文檔列表求交過程...
好處:如果在求最短的兩個文檔列表的交集時發(fā)現(xiàn)為空,那么終止這個過程

缺點:
計算有依賴性,難以并發(fā)
需要本地空間臨時保存求交結(jié)果
最后依次求交必然是1個長列表和一個短列表求交

2.6 檢索結(jié)果排序

對于返回結(jié)果,只需要返回前n項即可.稱為"top-n查詢"也就是采用堆排序方案處理

堆排序除了內(nèi)存復制少特點,還具有"就地(inplace)"排序的特點

3 中文自動摘要

3.1 自動摘要的含義和實現(xiàn)

自動摘要是從文檔中自動提取一個正文片段.
對于同一個文檔,其自動摘要對于不同的查詢詞是不同的.所以,自動摘要的計算是實時的,并且和查詢相關,考慮"效率" 和"效果"

摘要必須包含的4層含義:
(1) 摘要指示性:摘要必須出現(xiàn)查詢詞,指出文檔位置
(2) 摘要描述性:如果多個查詢詞,摘要最好全部顯示查詢詞,即使不能,也應當給出權(quán)重更高的查詢詞
(3) 摘要簡介性:長度控制,不長不短
(4) 摘要完整性:句子完整,且從句子首部開始,不允許斷句

投票方式+滑動窗口方法.

滑動窗口實現(xiàn)自動摘要的步驟:
(1) 在文檔正文中標記查詢詞出現(xiàn)的位置
(2)從第一個查詢詞開始,取出滑動窗口長度的正文片段作為第一個候選窗口,接下來,每次窗口滑動到下一個出現(xiàn)的查詢詞開始.同樣取出窗口長度的正文片段作為候選窗口,直到取完所有候選窗口
(3)每個候選窗口包含的正文片段中,累計候選窗口中出現(xiàn)的全部查詢詞的權(quán)重作為候選窗口的評分,最終評分高的候選窗口作為自動摘要提取的結(jié)果輸出.

滑動窗口類似SIngle算法.


標記查詢詞在文檔中的位置<位置,長度,權(quán)重>



通過滑動窗口得到6個候選窗口



微調(diào)后的滑動窗口

4 生成搜索結(jié)果頁

搜索結(jié)果頁的主體包含與查詢相關的網(wǎng)頁鏈接URL和自動摘要

生成搜索結(jié)果頁的全過程

4.1 生成網(wǎng)頁搜索結(jié)果頁

因為索引系統(tǒng)中的使用局部倒排文件的分布式部署,提高并發(fā)性,可靠性.而由于這種存儲結(jié)構(gòu),實際的檢索也是在索引節(jié)點內(nèi)完成.

每個索引節(jié)點增加一個檢索模塊從而變成一個檢索節(jié)點.

主要步驟:
(1) 檢索請求發(fā)送給檢索代理,檢索代理進行查詢詞分詞
(2) 查詢詞分詞后的結(jié)果同時發(fā)往各個檢索節(jié)點
(3) 檢索代理重新排序來自各個檢索節(jié)點的文檔,去除top-n作為結(jié)果頁拼接的候選文檔
(4) 通過自動摘要模塊從網(wǎng)頁庫中去除n個文檔的摘要信息
(5) 將3,4的結(jié)果合并,動態(tài)產(chǎn)生搜索結(jié)果頁

5 搜索結(jié)果頁的緩存

在查詢系統(tǒng)中,搜索結(jié)果頁的緩存是對搜索"效率"貢獻的最大設計

注:緩存保存前人查詢結(jié)果.查詢時,直接從緩存提取.

結(jié)論:

(1) 前20%的查詢詞的查詢次數(shù)約總查詢次數(shù)的80%
(2) 查詢具有穩(wěn)定性,查過的查詢詞很可能在將來還會被查詢.

使用LRU緩存技術

具有搜索結(jié)果頁緩存功能支持的查詢系統(tǒng)

6 推測用戶查詢意圖

日志分析及挖掘的技巧對排名進行干預.

6.1 查詢分類

導航類
信息類
事物類

導航類可以充分利用瞄信息,關鍵詞位置,標題/正文,PageRank等信息,eg"南京大學"-->"首頁匹配"
而信息類和事物類查詢效果不理想.egZ50,3/10的查詢有效率

6.2 推測信息類,事物類的查詢意圖

(1) 從查詢?nèi)罩局械玫接脩暨@類查詢中實際點擊的URL,并進行排名反饋
(2) 在用戶的查詢序列中分析查詢意圖,并給出搜索結(jié)果

所以:信息類,事物類查詢大多數(shù)通過事后分析及日志挖掘的技巧將分析結(jié)果反饋給排名系統(tǒng),使得后續(xù)搜索效果更好

7 查詢系統(tǒng)的當前熱點和發(fā)展方向

搜索結(jié)果是搜索引擎的命脈,改善搜索結(jié)果的主要途徑是查詢系統(tǒng),所以,查詢系統(tǒng)是搜索引中最熱門的話題

7.1 當前熱點

(1) 推測用戶查詢意圖,查詢糾錯,查詢推薦,相關搜索
(2) 能夠在領域進行查詢.包括垂直搜索和分類搜索
(3) 查詢結(jié)果的優(yōu)化(相似結(jié)果聚類,垃圾網(wǎng)頁和病毒的甄別)
(4) 提供個性化服務

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末灵汪,一起剝皮案震驚了整個濱河市鸳吸,隨后出現(xiàn)的幾起案子萧诫,更是在濱河造成了極大的恐慌锄蹂,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件捕虽,死亡現(xiàn)場離奇詭異簿盅,居然都是意外死亡诅病,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門卓鹿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來菱魔,“玉大人,你說我怎么就攤上這事吟孙±骄耄” “怎么了聚蝶?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長藻治。 經(jīng)常有香客問我碘勉,道長,這世上最難降的妖魔是什么桩卵? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任验靡,我火速辦了婚禮,結(jié)果婚禮上雏节,老公的妹妹穿的比我還像新娘胜嗓。我一直安慰自己,他們只是感情好钩乍,可當我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布辞州。 她就那樣靜靜地躺著,像睡著了一般件蚕。 火紅的嫁衣襯著肌膚如雪孙技。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天排作,我揣著相機與錄音牵啦,去河邊找鬼。 笑死妄痪,一個胖子當著我的面吹牛哈雏,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播衫生,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼裳瘪,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了罪针?” 一聲冷哼從身側(cè)響起彭羹,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎泪酱,沒想到半個月后派殷,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡墓阀,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年毡惜,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片斯撮。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡经伙,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出勿锅,到底是詐尸還是另有隱情帕膜,我是刑警寧澤枣氧,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站垮刹,受9級特大地震影響作瞄,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜危纫,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一宗挥、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧种蝶,春花似錦契耿、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至盯滚,卻和暖如春踢械,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背魄藕。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工内列, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人背率。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓话瞧,卻偏偏與公主長得像,于是被迫代替她去往敵國和親寝姿。 傳聞我的和親對象是個殘疾皇子交排,可洞房花燭夜當晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容