1. 項(xiàng)目簡(jiǎn)介
query下拉推薦或query自動(dòng)補(bǔ)全,是在搜索引擎場(chǎng)景中廣泛應(yīng)用的一個(gè)功能;當(dāng)搜索欄中有任意輸入時(shí),搜索欄下方立刻根據(jù)輸入推薦/提示出以輸入為前綴的相關(guān)詞,如圖1所示涕烧。
良好的推薦效果不僅能夠節(jié)省用戶輸入提高用戶搜索,同時(shí)對(duì)用戶體驗(yàn)也有極大的提升汗洒。接下來(lái)的章節(jié)中议纯,將圍繞這個(gè)主題進(jìn)行 詳細(xì)討論其中的問題和挑戰(zhàn),及在實(shí)際業(yè)務(wù)中所采用的方案溢谤。
2. 相關(guān)工作
2.1 問題
- 如何鑒別輸入是一個(gè)前綴
- 前綴和候選詞之間如何建立聯(lián)系
- 候選關(guān)鍵詞列表排序規(guī)則
以上是該項(xiàng)目需要解決的主要方面瞻凤。
對(duì)于問題1,在query suggestion項(xiàng)目中把任意用戶的輸入都作為一個(gè)前綴世杀,不管當(dāng)前輸入是僅有一個(gè)字母還是一個(gè)詞組阀参。
項(xiàng)目中通過在prefixes和候選關(guān)鍵詞之間建立倒排索引將二者聯(lián)系起來(lái),倒排索引的建立在離線狀態(tài)下完成(可定期更新)瞻坝,在線情況實(shí)則只是一個(gè)通過key查找value的過程蛛壳,而有很多人會(huì)懷疑,按這種方式,這個(gè)效率會(huì)不會(huì)很低衙荐,經(jīng)過實(shí)測(cè)捞挥,在prefix集為150w的情況下,整個(gè)服務(wù)的返回時(shí)間在10ms左右赫模,那么這個(gè)在通用場(chǎng)景下效率完全可以勝任树肃。
最后一點(diǎn)就是候選關(guān)鍵詞列表rank 模型,即如何從候選中選擇合適的關(guān)鍵詞瀑罗,本項(xiàng)目采用關(guān)鍵詞搜索次數(shù)及其對(duì)應(yīng)結(jié)果數(shù),加權(quán)求和作為每個(gè)keyword的 rank score雏掠。
3. 模型和算法
在這個(gè)項(xiàng)目中主要用到的算法和模型相對(duì)較簡(jiǎn)單斩祭,主要應(yīng)用在prefix生成、prefix和關(guān)鍵詞倒排索引乡话,及候選關(guān)鍵詞排序摧玫。用到的模型包括:
- 1 . 拼音->漢字模型
用于通過漢字(拼音)獲取拼音(漢字),在這個(gè)模型中如果漢字是多音字绑青,則會(huì)將其所有拼音一同返回诬像。 - 2 . prefix生成模型
根據(jù)關(guān)鍵詞、關(guān)鍵詞對(duì)應(yīng)拼音等生成對(duì)應(yīng)的prefix列表闸婴。 - 3 . 關(guān)鍵詞排序模型
對(duì)候選關(guān)鍵詞列表進(jìn)行排序坏挠,返回最合適的關(guān)鍵詞列表。
4. 策略設(shè)計(jì)
項(xiàng)目整體設(shè)計(jì)思路如下所示:
這是一個(gè)完備的系統(tǒng)設(shè)計(jì)方案邪乍,包括數(shù)據(jù)輸入降狠、模型創(chuàng)建、數(shù)據(jù)更新等庇楞。項(xiàng)目首先根據(jù)歷史搜索日志或者某種結(jié)構(gòu)化文檔提取出關(guān)鍵詞(這個(gè)過程會(huì)涉及到文本分詞榜配,文本分詞器會(huì)在另一篇文檔中進(jìn)行介紹),并記錄下其對(duì)應(yīng)的檢索次數(shù)和所對(duì)應(yīng)的結(jié)果數(shù)或者是詞頻吕晌,作為整個(gè)數(shù)據(jù)模型的輸入蛋褥,然后用到前術(shù)的算法和模型build data model,這個(gè)過程分為增量更新和全量更新睛驳,增量更新就是把送來(lái)的數(shù)據(jù)build之后加入到之前的內(nèi)存結(jié)構(gòu)中烙心;全量索引即是用新生成的數(shù)據(jù)模型替換舊的數(shù)據(jù)模型。之所以設(shè)計(jì)數(shù)據(jù)更新這一部分的原因是我們所用數(shù)據(jù)的屬性是在不停的變動(dòng)中柏靶,所以要保持?jǐn)?shù)據(jù)新穎度弃理。之后通過已經(jīng)創(chuàng)建好的數(shù)據(jù)模型就可以獲取每個(gè)prefix下的推薦關(guān)鍵詞了。
5. 評(píng)估方案
對(duì)于query suggestion的評(píng)估最主要指標(biāo)是屎蜓,比較推薦關(guān)鍵詞是否是用戶真實(shí)想要輸入的詞痘昌,而本文的設(shè)計(jì)方案只能通過上線后從日志中統(tǒng)計(jì)用戶真實(shí)輸入及推薦結(jié)果的數(shù)據(jù)然后進(jìn)行分析。目前從實(shí)際情況來(lái)看,因?yàn)槭菍?duì)搜索日志數(shù)據(jù)進(jìn)行挖掘進(jìn)行推薦辆苔,換句話說算灸,推薦的詞一般都是全網(wǎng)熱搜的詞,效果相對(duì)較好驻啤。
6. 其他方式及優(yōu)化方向
本文只是描述了一種實(shí)現(xiàn)query suggestion的簡(jiǎn)單方案菲驴,在實(shí)際應(yīng)用中,還需要考慮用戶搜索上下文場(chǎng)景進(jìn)行信息以便準(zhǔn)確預(yù)測(cè)用戶想要的真是輸入骑冗∩匏玻總體來(lái)說,未來(lái)優(yōu)化方向?yàn)椋?/p>
- 考慮用戶上下文信息進(jìn)行準(zhǔn)確推薦
- 排序模型優(yōu)化贼涩,采用ML方法去自動(dòng)學(xué)習(xí)每個(gè)部分的權(quán)重
- 考慮是否有其他方式來(lái)實(shí)現(xiàn)這個(gè)功能巧涧。
項(xiàng)目地址: https://github.com/syw2014/query-suggestion
轉(zhuǎn)載請(qǐng)注明出處:http://www.reibang.com/p/aa074cc6a7b3