1.策略質(zhì)量評(píng)估
1.1在全體對(duì)象中隨機(jī)抽樣
在后臺(tái)隨機(jī)抽取了200個(gè)query
1.2樣本進(jìn)入策略得到計(jì)算結(jié)果
策略識(shí)別為天氣需求:36
1.3人工標(biāo)注樣本
天氣需求:33
1.4對(duì)比:計(jì)算出召回率以及準(zhǔn)確率
策略識(shí)別有誤的案例數(shù):7
策略識(shí)別正確的案例數(shù):29
策略識(shí)別忽略的案例數(shù):4
召回率 (代表策略對(duì)問題的解決程度)
= 希望被覆蓋的案例中,策略實(shí)際覆蓋到的案例 / 理想態(tài)下希望策略覆蓋的案例
= 29 / 33 = 0.88%
準(zhǔn)確率 (代表策略有沒有帶來其他傷害)
= 策略覆蓋的案例中莱预,真正希望被覆蓋的 / 策略覆蓋的所有案例
= 29 / 36 = 0.80
2.問題分析
2.1產(chǎn)品目的
能夠準(zhǔn)確解析query可能存在的用戶需求屎篱,幫助下一步檢索标锄。
2.2存在問題
通過人工標(biāo)注和隨機(jī)抽樣結(jié)果分析可得逗宁,識(shí)別策略存在的問題可以概括為:
系統(tǒng)識(shí)別出來倡怎,但是錯(cuò)了踢械。query中都存在目標(biāo)詞趟薄,但是用戶的搜索需求并非查找天氣绽诚。集中出現(xiàn)兩類問題:第一類是斷句不當(dāng);第二類是需求理解判斷不當(dāng)杭煎。
case1:男朋友今天氣死我了
這query中存在連續(xù)的“天氣”一詞恩够,但是結(jié)合整個(gè)句子來看,明顯是與“天氣”沒有聯(lián)系羡铲。存在的問題是切詞有誤蜂桶。正確切詞方式為:男朋友/今天/氣死我/了。
case2:愛上你的好天氣
愛上你的好天氣也切,這個(gè)query是一個(gè)完整的歌曲名稱扑媚。根據(jù)搜索結(jié)果頁的操作點(diǎn)擊鏈接類型可以判斷,對(duì)于該query雷恃,用戶更大概率是要查找歌曲疆股。
系統(tǒng)沒有識(shí)別出來的query。這類case的特點(diǎn)是倒槐,沒有出現(xiàn)明確的搜索關(guān)鍵詞旬痹,但其實(shí)是通過側(cè)面的描述,反映用戶想要了解天氣的需求。
case1:去華山需要準(zhǔn)備什么衣服
用戶沒有直接搜索華山最近天氣如何唱凯,但其實(shí)準(zhǔn)備什么衣服與當(dāng)時(shí)的天氣關(guān)聯(lián)度很大羡忘。
這類query存在明確的地點(diǎn)信息,有明確訴求如穿衣磕昼,衣服,并且一般是帶疑問句性質(zhì)节猿。
2.3策略優(yōu)化目標(biāo)
1.優(yōu)化存在明確類目詞時(shí)票从,搜索詞的解析規(guī)則;
2.把搜索結(jié)果點(diǎn)擊操作反饋歷史數(shù)據(jù)作為query分析的一個(gè)維度滨嘱,讓對(duì)需求的把握更準(zhǔn)確峰鄙。
3.優(yōu)化query切詞方案;
3.項(xiàng)目計(jì)劃
3.1項(xiàng)目收益分析
3.2優(yōu)先級(jí)排序
如上述分析太雨,綜合考慮問題的影響面吟榴,解決程度以及開發(fā)成本,方案2為優(yōu)先級(jí)最高的項(xiàng)目囊扳,接下來是優(yōu)化切詞的方案吩翻,最后是搜索詞解析規(guī)則優(yōu)化項(xiàng)目。
4.需求文檔
4.1背景
近期锥咸,接收到客服部門反映狭瞎,用戶對(duì)于當(dāng)前搜索結(jié)果不太滿意。為此搏予,策略PM介入熊锭,通過階段性調(diào)研以及抽樣分析的方法,找出問題原因并提出優(yōu)化方案雪侥。
4.2需求概述
改善目前系統(tǒng)對(duì)于搜索詞的需求識(shí)別策略碗殷,提升query的召回率以及準(zhǔn)確率。
4.3需求詳述
需求1
問題:query中包含目標(biāo)搜索詞速缨,但從整個(gè)query看锌妻,有權(quán)重更高的搜索結(jié)果。
解決方案:把搜索結(jié)果點(diǎn)擊操作反饋歷史數(shù)據(jù)作為query分析的一個(gè)維度鸟廓。通過分析歷史搜索結(jié)果數(shù)據(jù)从祝,判斷用戶是要搜索整個(gè)query。
需求2
問題:中文分詞引谜,在不同顆粒度下能有不同的切詞方式牍陌,對(duì)搜索結(jié)果的理解產(chǎn)生偏差。
解決方案:當(dāng)query能產(chǎn)生多種顆粒度切詞方式時(shí)员咽,構(gòu)建索引時(shí)使用細(xì)粒度的分詞以保證召回毒涧,在查詢的時(shí)候使用粗粒度的分詞以保證精度。
需求3
問題:沒有出現(xiàn)明確的搜索關(guān)鍵詞贝室,但其實(shí)是通過側(cè)面的描述契讲,反映用戶想要了解天氣的需求仿吞。
解決方案:在搜索詞解析規(guī)則中,加入口語詞匯作為標(biāo)識(shí)捡偏。解析時(shí)唤冈,如遇到標(biāo)識(shí)的口語詞,則把query按照預(yù)設(shè)的規(guī)則進(jìn)行轉(zhuǎn)義操作银伟。
困難:由于這項(xiàng)工作涉及大量的規(guī)則定義你虹,在2周的開發(fā)期內(nèi)不能保證完成,因此彤避,這個(gè)需求的優(yōu)先級(jí)較低傅物,不納入本次開發(fā)計(jì)劃中。
4.4統(tǒng)計(jì)需求
核心指標(biāo):query召回率與準(zhǔn)確率
觀察方法:從系統(tǒng)中隨機(jī)抽取200條數(shù)據(jù)琉预,在優(yōu)化后的策略系統(tǒng)中運(yùn)算一次董饰,把召回率與準(zhǔn)確率與優(yōu)化前作對(duì)比。