搜索技術(shù)
理解用戶
理解意圖
理解文檔
理解場景
query分析
-
檢索
糾錯腰根,同義歸一,丟詞 -
排序
重要度邮辽,緊密度唠雕,同義詞,時效吨述,意圖分類 -
展示
糾錯岩睁,摘要,同義詞揣云,丟詞捕儒,相關(guān)推薦
詞的粒度
原詞:北郵游泳館
專有名詞粒度:北郵羽毛球館
基本粒度:北郵 羽毛球館
細粒度:北郵 羽毛球 館
多粒度:北郵 羽毛 球館
拓展粒度:球
詞的成分
北京郵電大學(xué)老食堂餐廳3樓好吃土豆
- 北京
(城市)
- 郵電大學(xué)
(地標)
- 老食堂餐廳
(店名)
- 3樓
(位置)
- 好吃土豆
(菜名)
詞表,CRF邓夕,句法分析刘莹,模板
query改寫
- 同義詞
- CWM:?Click ? Weight ? Model ? ?
- NHM:Ngram ? Hit ? Model ?
query挖掘
- 是否被瀏覽
- 是否被點擊
- 是否有吸引力
- 文檔對用戶吸引力
Doc分析
Doc分析 - 標簽
- 標簽分類
- 標簽分級(權(quán)重)
Doc分析 - UGC
情感分析
User分析
- 用戶基礎(chǔ)標簽
- 基本信息:性別,年齡焚刚,消費水平
- POI信息:常住地点弯,活動商圈
- 用戶特定領(lǐng)域標簽
知識圖譜
關(guān)鍵詞對齊
關(guān)鍵詞對齊的目標是得到query和知識庫的對齊信息,便于解碼時找相應(yīng)的詞語矿咕。
- 編輯距離
- 命名習(xí)慣
- 垂直領(lǐng)域內(nèi)容
- 同義詞表
- 詞向量
查詢分析
業(yè)務(wù)識別
查詢串 -> 標簽類別 -> 有編碼的屬性進行解碼(店名->Id)
查詢分析流程
- 歸一化抢肛,分詞
- 業(yè)務(wù)識別
- 實體識別
- 查詢改寫:
- 同義詞
- 上下位詞:父類詞,子類詞擴充
- 去詞改寫:留下核心詞
- 相似改寫:周杰倫和昆凌的例子
- 語義擴展
- 意圖識別:
- 商家碳柱,位置捡絮,行業(yè),產(chǎn)品&服務(wù)
- 每個意圖都對應(yīng)著某些類別的標簽
- 召回策略
- 排序
搜索引導(dǎo)
- 默認詞
- 熱詞
- 歷史搜索
- 查詢糾錯
- 泛詞引導(dǎo) - 搜索地點莲镣,推薦用戶喜歡的品類關(guān)鍵字
- 相關(guān)搜索
- POI推薦
熱詞 - 候選集
- 歷史消費行為:40%
- 附近wifi的poi:20%
- 地理位置:40%
- 城市熱詞:推薦不足之后補余
熱詞 - 排序策略
- 用戶日志
- 展現(xiàn) - 小
- 點擊 - 中
- 下單 - 大
- 特征排序
- 候選詞特征:pv福稳,ctr
- 用戶特征:是否活躍,品類偏好
- 用戶+候選詞:歷史查詢與候選詞相似度瑞侮,位置
未來需要標簽化的圆,場景化
smart-box
候選詞
- 靜態(tài)數(shù)據(jù):審核的城市鼓拧,店名,菜品
- 搜索日志:天略板,周毁枯,月的熱詞
- 商戶名 & 門店名
- 地點 & 品類
- 旅游 & 電影
- 組合:地標+品類 品類+屬性
召回策略
- 普通前綴
- 拼音前綴
- 簡拼前綴
3種權(quán)重依次降低,優(yōu)先搜索本城市叮称,未命中才擴展全國
排序策略
訓(xùn)練樣本:點擊的推薦詞為正樣本,展示了沒點的作為負樣本
推薦詞的特征:周PV藐鹤,點擊下單瓤檐,轉(zhuǎn)化率,詞長度
用戶特征:用戶距離娱节,用戶區(qū)域周下單挠蛉,用戶區(qū)域PV
關(guān)聯(lián)特征:共現(xiàn)特征,組合ctr
糾錯
- 同音
- 多字肄满,漏字谴古,順序顛倒
- 模糊音
- 拼音
- 形近字
- 英文
候選集合
- 人工審核名單
- 搜索點擊
- 搜索session
- 地點,品類
- 旅游稠歉,電影
召回策略
- 拼音索引
- 漢子索引
- 糾錯對索引
一個query過來:
糾錯模塊:同音糾錯掰担,模糊音糾錯,字典糾錯 怒炸,形近字糾錯
產(chǎn)生候選序列
泛詞查詢
引導(dǎo)用戶的思路带饱,不同需求不同引導(dǎo)
搜索分詞
分詞算法
- 前向最大匹配
- 后向最大匹配
- 基于統(tǒng)計的方法
- 基于條件隨機場CRF算法
CRF:是一個序列標注問題,可以發(fā)現(xiàn)新詞阅羹,消歧義