作者:hooly
微信公眾號:一口袋星光
什么是搜索?
根據(jù)提供的已知信息榨崩,給用戶提供符合各方利益訴求的內(nèi)容削解。
搜索的主體:
1.搜索的用戶
2.輸入的內(nèi)容(關(guān)鍵詞/圖片/語音)
3.檢索規(guī)則
4.搜索結(jié)果的處理
搜索流程:
檢索原理:
若干一個詞庫把夸,搜索詞按照規(guī)范化處理以后旁舰,進行分詞锋华,分詞完成之后,和詞庫中詞語做匹配鬓梅,匹配命中的供置,則不再拆詞,拆詞節(jié)后之后绽快,用拆好的詞去搜索芥丧。
檢索查詢-分詞:
1.規(guī)范化處理:
去除標點符號 加減號、空格等坊罢;通過配置文件去除干擾詞续担,“你、我活孩、他”等
2.分詞方式:
中英文分開物遇;根據(jù)空格分詞;把輸入詞和詞庫進行匹配憾儒,按照詞庫詞語進行分詞询兴。命中則不分詞。
現(xiàn)有的中文分詞算法可分為三大類:基于字符串匹配的分詞方法起趾、基于理解的分詞方法和基于統(tǒng)計的分詞方法诗舰。下面介紹下第一類分詞方法
基于字符串匹配的分詞方法
這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞庫中的詞條進行配训裆,若在詞庫中找到某個字符串眶根,則匹配成功(識別出一個詞)。按照掃描方向的不同边琉,串匹配分詞方法可以分為正向匹配和逆向匹配属百;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最斜湟獭(最短)匹配族扰;按照是否與詞性標注過程相結(jié)合,又可以分為單純分詞方法和分詞與標注相結(jié)合的一體化方法定欧。常用的幾種機械分詞方法如下:
1)正向最大匹配法(由左到右的方向)渔呵;
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的詞數(shù)最杏嵌睢)厘肮。
3.詞庫
詞庫可以有很多內(nèi)容:比如商品標題;品牌睦番;屬性类茂;描述耍属;店鋪;分類...每個詞庫也會有對應(yīng)的權(quán)重巩检,而影響最后的排序厚骗。
檢索查詢-匹配命中方式:
首詞命中:指輸入詞與結(jié)果首位詞匹配,如用戶輸入“漢庭”兢哭,結(jié)果匹配漢庭快捷酒店(新街口店)
包含命中:是指輸入詞在結(jié)果中包含领舰,如用戶:輸入“大四”,結(jié)果匹配牡丹江大四方旅館迟螺;
排序規(guī)則:
靜態(tài)-相關(guān)性:詞相關(guān)性冲秽、字段相關(guān)性、文本匹配矩父;字段類型:標題锉桑、同義標題、品牌窍株、屬性民轴、描述、店鋪球订、分類等...
動態(tài)-業(yè)務(wù)因素:庫存后裸、單品反饋(收藏、購買冒滩、點擊)微驶、更新時間、促銷
動態(tài)-商業(yè)因素:銷售金額旦部、銷售額祈搜、評論數(shù)较店、商品評分士八、店鋪評分
動態(tài)-個性化因素:個人歷史行為,個人喜好等...
搜索系統(tǒng)的架構(gòu):
作者:hooly
微信公眾號:一口袋星光
我會在微信公號上持續(xù)更新我的文章梁呈,你來討論我很歡迎婚度。