1德玫、搜索引擎流程
如圖匪蟀,整個搜索引擎邏輯可以理解成兩條線,上面是需求理解宰僧,下面是資源管理材彪,然后合理的讓資源以符合用戶需求的方式給出,就是搜索引擎做的事情琴儿。
所以段化,總結(jié)為以下3件事:需求理解、資源管理造成、匹配邏輯
2显熏、檢索關(guān)系圖
各個模塊的工作
master(M1/M2)是大腦,控制中心晒屎,負責進行全局調(diào)控喘蟆,外加整合處理缓升;
QS負責用戶的需求理解分析
GS負責對頁面整體排序
RS是對結(jié)果的包裝和美化
各個模塊的具體工作:
M1:
連接Master1(Gs),接收Master2-Gs排序后返回的結(jié)果
連接LBS蕴轨、外部整合港谊、KS 等服務(wù)
負責大庫數(shù)據(jù) 與 LBS、外部整合尺棋、KS的混排工作
負責整體結(jié)構(gòu)化結(jié)果聚合工作
QS熱度 + 結(jié)構(gòu)化聚合策略 + Gs結(jié)果信息 = 共同指導混排
【整合結(jié)果層:策略來源QS封锉,決定者M1】
QS:
需求分析,可以提供query分類膘螟、核心詞成福、同義詞、實體詞等信息
M2:
連接各類worker-IS檢索集群
通過QS荆残、GS策略 執(zhí)行 檢索調(diào)度
獲取IS數(shù)據(jù)發(fā)送GS 進行全局排序
獲取DI
【大庫搜索結(jié)果層:決定者GS】
QS:
Query解析奴艾、變換
Query用戶需求識別
需求類別熱度識別(排序參照)
QT 含 內(nèi)部、外部整合内斯、LBS query類別召回
Query實體詞識別
連接糾錯蕴潦、新聞詞server 識別糾錯詞、新聞詞
GS:
從Master2獲取IS檢索結(jié)果
進行全局結(jié)果排序
(暫不包括 外部整合與LBS排序)
IS:
根據(jù)Query特征對索引進行檢索俘闯,結(jié)合網(wǎng)頁特征及Query特征潭苞,基本確定相關(guān)網(wǎng)頁集合
3、 網(wǎng)頁結(jié)果構(gòu)成
可以從query的理解上研究怎樣找到最好的給出結(jié)果的方式(即上面說的第三件事真朗,匹配邏輯)此疹;
也可以從搜索結(jié)果的來源上,研究怎樣逐一優(yōu)化遮婶,這種方式可以理解為上面說的第二件事蝗碎,資源管理;
4旗扑、系統(tǒng)架構(gòu)圖
檢索關(guān)系圖可以看成是對搜索引擎的業(yè)務(wù)的橫向理解蹦骑,即理解用戶從輸入query到結(jié)果呈現(xiàn)的過程是怎樣的;
系統(tǒng)架構(gòu)圖可以看成是縱向理解臀防;