query suggestion/ query 下拉推薦

1. 項(xiàng)目簡(jiǎn)介

query下拉推薦或query自動(dòng)補(bǔ)全,是在搜索引擎場(chǎng)景中廣泛應(yīng)用的一個(gè)功能;當(dāng)搜索欄中有任意輸入時(shí),搜索欄下方立刻根據(jù)輸入推薦/提示出以輸入為前綴的相關(guān)詞,如圖1所示涕烧。


圖1 query suggestion.png

良好的推薦效果不僅能夠節(jié)省用戶輸入提高用戶搜索,同時(shí)對(duì)用戶體驗(yàn)也有極大的提升汗洒。接下來(lái)的章節(jié)中议纯,將圍繞這個(gè)主題進(jìn)行 詳細(xì)討論其中的問題和挑戰(zhàn),及在實(shí)際業(yè)務(wù)中所采用的方案溢谤。

2. 相關(guān)工作

2.1 問題

  • 如何鑒別輸入是一個(gè)前綴
  • 前綴和候選詞之間如何建立聯(lián)系
  • 候選關(guān)鍵詞列表排序規(guī)則

以上是該項(xiàng)目需要解決的主要方面瞻凤。
對(duì)于問題1,在query suggestion項(xiàng)目中把任意用戶的輸入都作為一個(gè)前綴世杀,不管當(dāng)前輸入是僅有一個(gè)字母還是一個(gè)詞組阀参。
項(xiàng)目中通過在prefixes和候選關(guān)鍵詞之間建立倒排索引將二者聯(lián)系起來(lái),倒排索引的建立在離線狀態(tài)下完成(可定期更新)瞻坝,在線情況實(shí)則只是一個(gè)通過key查找value的過程蛛壳,而有很多人會(huì)懷疑,按這種方式,這個(gè)效率會(huì)不會(huì)很低衙荐,經(jīng)過實(shí)測(cè)捞挥,在prefix集為150w的情況下,整個(gè)服務(wù)的返回時(shí)間在10ms左右赫模,那么這個(gè)在通用場(chǎng)景下效率完全可以勝任树肃。
最后一點(diǎn)就是候選關(guān)鍵詞列表rank 模型,即如何從候選中選擇合適的關(guān)鍵詞瀑罗,本項(xiàng)目采用關(guān)鍵詞搜索次數(shù)及其對(duì)應(yīng)結(jié)果數(shù),加權(quán)求和作為每個(gè)keyword的 rank score雏掠。

3. 模型和算法

在這個(gè)項(xiàng)目中主要用到的算法和模型相對(duì)較簡(jiǎn)單斩祭,主要應(yīng)用在prefix生成、prefix和關(guān)鍵詞倒排索引乡话,及候選關(guān)鍵詞排序摧玫。用到的模型包括:

  • 1 . 拼音->漢字模型
    用于通過漢字(拼音)獲取拼音(漢字),在這個(gè)模型中如果漢字是多音字绑青,則會(huì)將其所有拼音一同返回诬像。
  • 2 . prefix生成模型
    根據(jù)關(guān)鍵詞、關(guān)鍵詞對(duì)應(yīng)拼音等生成對(duì)應(yīng)的prefix列表闸婴。
  • 3 . 關(guān)鍵詞排序模型
    對(duì)候選關(guān)鍵詞列表進(jìn)行排序坏挠,返回最合適的關(guān)鍵詞列表。

4. 策略設(shè)計(jì)

項(xiàng)目整體設(shè)計(jì)思路如下所示:

圖2 系統(tǒng)架構(gòu)圖.png

這是一個(gè)完備的系統(tǒng)設(shè)計(jì)方案邪乍,包括數(shù)據(jù)輸入降狠、模型創(chuàng)建、數(shù)據(jù)更新等庇楞。項(xiàng)目首先根據(jù)歷史搜索日志或者某種結(jié)構(gòu)化文檔提取出關(guān)鍵詞(這個(gè)過程會(huì)涉及到文本分詞榜配,文本分詞器會(huì)在另一篇文檔中進(jìn)行介紹),并記錄下其對(duì)應(yīng)的檢索次數(shù)和所對(duì)應(yīng)的結(jié)果數(shù)或者是詞頻吕晌,作為整個(gè)數(shù)據(jù)模型的輸入蛋褥,然后用到前術(shù)的算法和模型build data model,這個(gè)過程分為增量更新和全量更新睛驳,增量更新就是把送來(lái)的數(shù)據(jù)build之后加入到之前的內(nèi)存結(jié)構(gòu)中烙心;全量索引即是用新生成的數(shù)據(jù)模型替換舊的數(shù)據(jù)模型。之所以設(shè)計(jì)數(shù)據(jù)更新這一部分的原因是我們所用數(shù)據(jù)的屬性是在不停的變動(dòng)中柏靶,所以要保持?jǐn)?shù)據(jù)新穎度弃理。之后通過已經(jīng)創(chuàng)建好的數(shù)據(jù)模型就可以獲取每個(gè)prefix下的推薦關(guān)鍵詞了。

5. 評(píng)估方案

對(duì)于query suggestion的評(píng)估最主要指標(biāo)是屎蜓,比較推薦關(guān)鍵詞是否是用戶真實(shí)想要輸入的詞痘昌,而本文的設(shè)計(jì)方案只能通過上線后從日志中統(tǒng)計(jì)用戶真實(shí)輸入及推薦結(jié)果的數(shù)據(jù)然后進(jìn)行分析。目前從實(shí)際情況來(lái)看,因?yàn)槭菍?duì)搜索日志數(shù)據(jù)進(jìn)行挖掘進(jìn)行推薦辆苔,換句話說算灸,推薦的詞一般都是全網(wǎng)熱搜的詞,效果相對(duì)較好驻啤。

6. 其他方式及優(yōu)化方向

本文只是描述了一種實(shí)現(xiàn)query suggestion的簡(jiǎn)單方案菲驴,在實(shí)際應(yīng)用中,還需要考慮用戶搜索上下文場(chǎng)景進(jìn)行信息以便準(zhǔn)確預(yù)測(cè)用戶想要的真是輸入骑冗∩匏玻總體來(lái)說,未來(lái)優(yōu)化方向?yàn)椋?/p>

  • 考慮用戶上下文信息進(jìn)行準(zhǔn)確推薦
  • 排序模型優(yōu)化贼涩,采用ML方法去自動(dòng)學(xué)習(xí)每個(gè)部分的權(quán)重
  • 考慮是否有其他方式來(lái)實(shí)現(xiàn)這個(gè)功能巧涧。

項(xiàng)目地址: https://github.com/syw2014/query-suggestion
轉(zhuǎn)載請(qǐng)注明出處:http://www.reibang.com/p/aa074cc6a7b3

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市遥倦,隨后出現(xiàn)的幾起案子谤绳,更是在濱河造成了極大的恐慌,老刑警劉巖袒哥,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件缩筛,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡堡称,警方通過查閱死者的電腦和手機(jī)瞎抛,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)粮呢,“玉大人婿失,你說我怎么就攤上這事∽墓眩” “怎么了豪硅?”我有些...
    開封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)挺物。 經(jīng)常有香客問我懒浮,道長(zhǎng),這世上最難降的妖魔是什么识藤? 我笑而不...
    開封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任砚著,我火速辦了婚禮,結(jié)果婚禮上痴昧,老公的妹妹穿的比我還像新娘稽穆。我一直安慰自己,他們只是感情好赶撰,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開白布舌镶。 她就那樣靜靜地躺著柱彻,像睡著了一般。 火紅的嫁衣襯著肌膚如雪餐胀。 梳的紋絲不亂的頭發(fā)上哟楷,一...
    開封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天,我揣著相機(jī)與錄音否灾,去河邊找鬼卖擅。 笑死,一個(gè)胖子當(dāng)著我的面吹牛墨技,可吹牛的內(nèi)容都是我干的惩阶。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼健提,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼琳猫!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起私痹,我...
    開封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎统刮,沒想到半個(gè)月后紊遵,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡侥蒙,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年暗膜,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鞭衩。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡学搜,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出论衍,到底是詐尸還是另有隱情瑞佩,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布坯台,位于F島的核電站炬丸,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏蜒蕾。R本人自食惡果不足惜稠炬,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望咪啡。 院中可真熱鬧首启,春花似錦、人聲如沸撤摸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至疾嗅,卻和暖如春外厂,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背代承。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工汁蝶, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人论悴。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓掖棉,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親膀估。 傳聞我的和親對(duì)象是個(gè)殘疾皇子幔亥,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容