搜索相關(guān)

搜索技術(shù)

理解用戶
理解意圖
理解文檔
理解場景

query分析

  • 檢索
    糾錯腰根,同義歸一,丟詞
  • 排序
    重要度邮辽,緊密度唠雕,同義詞,時效吨述,意圖分類
  • 展示
    糾錯岩睁,摘要,同義詞揣云,丟詞捕儒,相關(guān)推薦

詞的粒度

原詞:北郵游泳館
專有名詞粒度:北郵羽毛球館
基本粒度:北郵 羽毛球館
細粒度:北郵 羽毛球 館
多粒度:北郵 羽毛 球館
拓展粒度:球

詞的成分

北京郵電大學(xué)老食堂餐廳3樓好吃土豆

  • 北京(城市)
  • 郵電大學(xué)(地標)
  • 老食堂餐廳(店名)
  • 3樓(位置)
  • 好吃土豆(菜名)

詞表,CRF邓夕,句法分析刘莹,模板

query改寫

  • 同義詞
  • CWM:?Click ? Weight ? Model ? ?
  • NHM:Ngram ? Hit ? Model ?

query挖掘

  • 是否被瀏覽
  • 是否被點擊
  • 是否有吸引力
  • 文檔對用戶吸引力

Doc分析

Doc分析 - 標簽

  • 標簽分類
  • 標簽分級(權(quán)重)

Doc分析 - UGC

情感分析

User分析

  • 用戶基礎(chǔ)標簽
    • 基本信息:性別,年齡焚刚,消費水平
    • POI信息:常住地点弯,活動商圈
  • 用戶特定領(lǐng)域標簽

知識圖譜

關(guān)鍵詞對齊

關(guān)鍵詞對齊的目標是得到query和知識庫的對齊信息,便于解碼時找相應(yīng)的詞語矿咕。

  • 編輯距離
  • 命名習(xí)慣
  • 垂直領(lǐng)域內(nèi)容
  • 同義詞表
  • 詞向量

查詢分析

業(yè)務(wù)識別

查詢串 -> 標簽類別 -> 有編碼的屬性進行解碼(店名->Id)

查詢分析流程

  1. 歸一化抢肛,分詞
  2. 業(yè)務(wù)識別
  3. 實體識別
  4. 查詢改寫:
    • 同義詞
    • 上下位詞:父類詞,子類詞擴充
    • 去詞改寫:留下核心詞
    • 相似改寫:周杰倫和昆凌的例子
  5. 語義擴展
  6. 意圖識別:
    • 商家碳柱,位置捡絮,行業(yè),產(chǎn)品&服務(wù)
    • 每個意圖都對應(yīng)著某些類別的標簽
  7. 召回策略
  8. 排序

搜索引導(dǎo)

  • 默認詞
  • 熱詞
  • 歷史搜索
  • 查詢糾錯
  • 泛詞引導(dǎo) - 搜索地點莲镣,推薦用戶喜歡的品類關(guān)鍵字
  • 相關(guān)搜索
  • POI推薦

熱詞 - 候選集

  • 歷史消費行為:40%
  • 附近wifi的poi:20%
  • 地理位置:40%
  • 城市熱詞:推薦不足之后補余

熱詞 - 排序策略

  • 用戶日志
    • 展現(xiàn) - 小
    • 點擊 - 中
    • 下單 - 大
  • 特征排序
    • 候選詞特征:pv福稳,ctr
    • 用戶特征:是否活躍,品類偏好
    • 用戶+候選詞:歷史查詢與候選詞相似度瑞侮,位置

未來需要標簽化的圆,場景化

smart-box

候選詞

  • 靜態(tài)數(shù)據(jù):審核的城市鼓拧,店名,菜品
  • 搜索日志:天略板,周毁枯,月的熱詞
  • 商戶名 & 門店名
  • 地點 & 品類
  • 旅游 & 電影
  • 組合:地標+品類 品類+屬性

召回策略

  • 普通前綴
  • 拼音前綴
  • 簡拼前綴

3種權(quán)重依次降低,優(yōu)先搜索本城市叮称,未命中才擴展全國

排序策略

訓(xùn)練樣本:點擊的推薦詞為正樣本,展示了沒點的作為負樣本
推薦詞的特征:周PV藐鹤,點擊下單瓤檐,轉(zhuǎn)化率,詞長度
用戶特征:用戶距離娱节,用戶區(qū)域周下單挠蛉,用戶區(qū)域PV
關(guān)聯(lián)特征:共現(xiàn)特征,組合ctr

糾錯

  • 同音
  • 多字肄满,漏字谴古,順序顛倒
  • 模糊音
  • 拼音
  • 形近字
  • 英文

候選集合

  • 人工審核名單
  • 搜索點擊
  • 搜索session
  • 地點,品類
  • 旅游稠歉,電影

召回策略

  • 拼音索引
  • 漢子索引
  • 糾錯對索引

一個query過來:
糾錯模塊:同音糾錯掰担,模糊音糾錯,字典糾錯 怒炸,形近字糾錯
產(chǎn)生候選序列

泛詞查詢

引導(dǎo)用戶的思路带饱,不同需求不同引導(dǎo)

搜索分詞

分詞算法

  • 前向最大匹配
  • 后向最大匹配
  • 基于統(tǒng)計的方法
  • 基于條件隨機場CRF算法

CRF:是一個序列標注問題,可以發(fā)現(xiàn)新詞阅羹,消歧義

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末勺疼,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子捏鱼,更是在濱河造成了極大的恐慌执庐,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件导梆,死亡現(xiàn)場離奇詭異轨淌,居然都是意外死亡,警方通過查閱死者的電腦和手機问潭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進店門猿诸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人狡忙,你說我怎么就攤上這事梳虽。” “怎么了灾茁?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵窜觉,是天一觀的道長谷炸。 經(jīng)常有香客問我,道長禀挫,這世上最難降的妖魔是什么旬陡? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮语婴,結(jié)果婚禮上描孟,老公的妹妹穿的比我還像新娘。我一直安慰自己砰左,他們只是感情好匿醒,可當我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著缠导,像睡著了一般廉羔。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上僻造,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天憋他,我揣著相機與錄音,去河邊找鬼髓削。 笑死竹挡,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的蔬螟。 我是一名探鬼主播此迅,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼旧巾!你這毒婦竟也來了耸序?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤鲁猩,失蹤者是張志新(化名)和其女友劉穎坎怪,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體廓握,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡搅窿,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了隙券。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片男应。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖娱仔,靈堂內(nèi)的尸體忽然破棺而出沐飘,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布耐朴,位于F島的核電站借卧,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏筛峭。R本人自食惡果不足惜铐刘,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望影晓。 院中可真熱鬧镰吵,春花似錦、人聲如沸挂签。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽竹握。三九已至,卻和暖如春辆飘,著一層夾襖步出監(jiān)牢的瞬間啦辐,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工蜈项, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留芹关,地道東北人。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓紧卒,卻偏偏與公主長得像侥衬,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子跑芳,可洞房花燭夜當晚...
    茶點故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內(nèi)容