檢索/搜索系統(tǒng)評(píng)價(jià)體系基礎(chǔ)構(gòu)建

? ? ? ?本文主要講解了檢索系統(tǒng)的評(píng)價(jià)體系構(gòu)建的基本方式稚矿，不涉及高深的數(shù)學(xué)公式庸诱，通過閱讀可以初步了解基本概念。

一晤揣、為什么需要建立完整的檢索評(píng)價(jià)體系

? ? ? ?人們?cè)诙攘渴挛锖脡牡臅r(shí)候桥爽，總是喜歡包含主觀標(biāo)記信息，這些信息都會(huì)給評(píng)價(jià)標(biāo)準(zhǔn)引入大量的復(fù)雜性昧识、延遲和誤差钠四，我們稱之為“噪聲”。不好的評(píng)價(jià)指標(biāo)往往充斥著人們對(duì)于所描述事物的不信任和二次猜忌跪楞，也會(huì)因此忽略了事物的某些特征而讓評(píng)價(jià)指標(biāo)不夠全面缀去。規(guī)則化是一個(gè)不錯(cuò)的概念，它能讓問題的描述和考慮更加的全面甸祭、不冗余缕碎，從而構(gòu)建出一個(gè)性能優(yōu)越的評(píng)價(jià)體系。

? ? ? ?在設(shè)計(jì)評(píng)價(jià)指標(biāo)的時(shí)候淋叶，一定要時(shí)刻銘記5個(gè)關(guān)鍵點(diǎn)：代價(jià)成本阎曹、簡(jiǎn)潔性伪阶、可信性、準(zhǔn)確性和因果相關(guān)性处嫌。對(duì)于這幾個(gè)關(guān)鍵點(diǎn)的提升能夠直接幫助后續(xù)產(chǎn)品的改進(jìn)栅贴、用戶體驗(yàn)的提升，也能幫我們?cè)诟鞣N左右為難的權(quán)衡局面中做出合理和自然的取舍熏迹。

? ? ? ?實(shí)際工作中檐薯，簡(jiǎn)單性、低成本和構(gòu)造的有效性通常是對(duì)立的注暗，通常會(huì)為了追求簡(jiǎn)單和低成本性而破壞了構(gòu)造的有效性坛缕。很多公司或團(tuán)隊(duì)在這個(gè)方面投入了大量的人力物力，力求得到完美的平衡捆昏。結(jié)構(gòu)有效性設(shè)計(jì)的一個(gè)難點(diǎn)在于它使用的人類標(biāo)記信息赚楚，人類都具有主觀偏差性，對(duì)于標(biāo)簽的理解都存在著主觀性和差異性骗卜，所以個(gè)人在標(biāo)記過程中的準(zhǔn)則和標(biāo)準(zhǔn)都可能有所差異宠页，例如A童鞋將這個(gè)標(biāo)簽標(biāo)記為1，B童鞋就認(rèn)為應(yīng)該標(biāo)記為2寇仓。

? ? ? ?就目前而言举户，大多公司在追求簡(jiǎn)潔和低成本性的時(shí)候，缺少了可信性遍烦、準(zhǔn)確性和因果相關(guān)性俭嘁，所以很難根據(jù)這些客觀指標(biāo)去修改、完善和優(yōu)化算法服猪，進(jìn)一步優(yōu)化檢索系統(tǒng)供填。因?yàn)槲覀儾荒鼙ＷC用戶反饋體現(xiàn)了嚴(yán)格數(shù)學(xué)意義上的隨機(jī)抽樣，因此我們可能永遠(yuǎn)無法解決這個(gè)問題蔓姚，所以我們需要建立起一個(gè)完整的規(guī)則化的評(píng)價(jià)體系捕虽。

二、確定測(cè)試集構(gòu)建方案

? ? ? ?一個(gè)完整的測(cè)試集由三部分組成：文檔集坡脐、查詢集和相關(guān)判斷集泄私。

（一）文檔集

? ? ? ?文檔集是一組文檔的集和，確定了文檔的規(guī)模和內(nèi)容范圍备闲。該組文檔被信息檢索系統(tǒng)用來進(jìn)行文字分析晌端，它是信息系統(tǒng)評(píng)估的數(shù)據(jù)基礎(chǔ)，從各種數(shù)據(jù)源中選取并整理成符合規(guī)范格式的文檔恬砂，如期刊等咧纠。文檔集要具有代表性與多樣性，并且需要有一定規(guī)模泻骤。但不能一味增加測(cè)試集的規(guī)模漆羔，因?yàn)闀?huì)使相關(guān)判斷工作耗費(fèi)大量人力梧奢。

（二）查詢集

? ? ? ?查詢集是向信息檢索系統(tǒng)提出問題的集和，這些問題依據(jù)檢索系統(tǒng)和所需評(píng)估項(xiàng)目的不同演痒，可以是一個(gè)或一組關(guān)鍵詞亲轨，也可以是一段文字描述。根據(jù)文檔的具體內(nèi)容鸟顺，將文檔集劃分成多個(gè)類別惦蚊，然后按照類別將文檔分配給若干名構(gòu)建查詢主題的人員，構(gòu)建人員再根據(jù)具體內(nèi)容來創(chuàng)建查詢主題讯嫂。最后蹦锋，篩選得到的查詢主題，選出比較理想的查詢主題欧芽，并將其整理為統(tǒng)一的格式莉掂。查詢集分為2類構(gòu)建方式：

$\bullet$ 第一類查詢內(nèi)容范圍比較大，此類內(nèi)容需要對(duì)其定義描述渐裸，并需要列出哪些內(nèi)容會(huì)與該主題相關(guān)巫湘，用來作為后續(xù)相關(guān)判斷的參考，一般有多個(gè)描述及對(duì)應(yīng)的答案昏鹃。如“筆記本”，對(duì)應(yīng)的答案應(yīng)該有“筆記本的分類”诀诊，“如何使用筆記本”洞渤，“筆記本維修”等等。

$\bullet$ 第二類查詢內(nèi)容是一個(gè)顆粒度比較細(xì)致問題属瓣，問題本身就定義的比較清晰载迄，一般是一些比較固定的答案，如“林肯生日”抡蛙。

（三）相關(guān)判斷集

? ? ? ?相關(guān)判斷集制作非常耗費(fèi)時(shí)間护昧，所以需要查詢集問題的數(shù)量通常控制在幾百個(gè)左右粗截。相關(guān)判斷集是對(duì)應(yīng)查詢集中問題所給的一組標(biāo)準(zhǔn)答案的集和惋耙，它被用來比對(duì)信息檢索系統(tǒng)對(duì)于查詢集中的問題所給出的答案。相關(guān)判斷集的正確性和權(quán)威性非常重要熊昌，通常由人工手動(dòng)判斷獲得绽榛。人工判斷過程：所有相關(guān)判斷的賦值工作由若干名研究員分成2組進(jìn)行。分為初步判斷和檢查2個(gè)階段婿屹。第1階段,先由1組業(yè)務(wù)人員進(jìn)行判斷賦值灭美。第2階段，完成賦值后昂利，由另一組業(yè)務(wù)人員進(jìn)行檢查届腐。當(dāng)2組判斷工作完成后铁坎，將判斷結(jié)果進(jìn)行合并計(jì)算，得到相關(guān)判斷集犁苏。

三硬萍、檢索系統(tǒng)的評(píng)價(jià)指標(biāo)

? ? ? ?搜索引擎的檢索效果一般可以從相應(yīng)時(shí)間、查全率傀顾、查準(zhǔn)率等方面來衡量襟铭，其中查準(zhǔn)率和查全率又是最重要的2項(xiàng)指標(biāo)。響應(yīng)時(shí)間是用戶輸入檢索開始查詢到檢索出結(jié)果的時(shí)間短曾。查準(zhǔn)率是指一次搜索結(jié)果集中符合用戶要求的數(shù)目與該詞搜索結(jié)果的總數(shù)之比寒砖。查全率是指一次搜索結(jié)果中符合用戶要求的數(shù)目與用戶查詢相關(guān)的總數(shù)之比。一個(gè)好的搜索引擎應(yīng)該具有較快的響應(yīng)速度嫉拐、高的查全率和查準(zhǔn)率哩都，或者有極大的相似度。

? ? ? ?查準(zhǔn)率＝檢索出的相關(guān)信息量/ 檢索出的信息總量查全率

? ? ? ?查全率＝檢索出的相關(guān)信息量/ 系統(tǒng)中的相關(guān)信息總量

查準(zhǔn)率金額查全率是相對(duì)的婉徘，當(dāng)查準(zhǔn)率高時(shí)漠嵌，查全率往往偏低；而查全率高時(shí)盖呼，查準(zhǔn)率往往偏低儒鹿。

檢索系統(tǒng)給出的答案和相關(guān)判斷集中的答案越相近，則證明該檢索系統(tǒng)的質(zhì)量越高几晤。?

　　例如：在一次測(cè)試集檢索中约炎，共檢出文章10篇，其中相關(guān)判斷集中的文章為6篇（實(shí)際上檢索問題在相關(guān)判斷集中有12篇）蟹瘾，其余的4篇為非相關(guān)文章蓝撇，按照上述公式驾茴，本次檢索的查準(zhǔn)率=（6/10）×100%即60%胎撇，查全率=（6/12）×100%即50%热幔。

　　利用上述公式，對(duì)每一次信息檢索众雷，都可計(jì)算出其查準(zhǔn)率和查全率灸拍，對(duì)檢索系統(tǒng)做出數(shù)據(jù)化的評(píng)價(jià)。

四报腔、模型評(píng)測(cè)指標(biāo)及展示方式

? ? ? ?信息檢索中株搔，一般以查準(zhǔn)率和查全率繪制P-R圖的方式進(jìn)行展示，也就是將測(cè)試集中每一個(gè)問題的查準(zhǔn)率和查全率當(dāng)成一個(gè)點(diǎn)纯蛾，然后將這些點(diǎn)連成線纤房。例如我測(cè)試集中的查詢集有200個(gè)問題，就會(huì)將這200個(gè)問題的準(zhǔn)確率和查全率都跑出來翻诉，如下圖所示：

然后以查全率為X坐標(biāo)軸炮姨，查準(zhǔn)率為Y坐標(biāo)軸捌刮，繪制成P-R圖：

P-R圖

? ? ? ?P-R曲線越靠近右上角，則模型的效果越好舒岸。圖上1绅作、2兩條曲線分別代表模型的兩次迭代，曲線2完全包住曲線1及代表第2次迭代的效果要比第1次的效果好蛾派。

五：總結(jié)

? ? ? ?根據(jù)筆者構(gòu)建的實(shí)際經(jīng)驗(yàn)俄认，整個(gè)評(píng)價(jià)體系構(gòu)建最難的地方在于如何構(gòu)建測(cè)試集，需要根據(jù)實(shí)際業(yè)務(wù)來構(gòu)建查詢集和相關(guān)判斷集洪乍，雖然非常耗費(fèi)人工時(shí)間眯杏，但是在評(píng)價(jià)體系構(gòu)建完成后，可以測(cè)量模型的性能是非常有意義的壳澳，為今后的迭代提供數(shù)據(jù)支持岂贩。

? ? ? ?另一方面，評(píng)測(cè)指標(biāo)還有ROC（接收者操作特征曲線）巷波、對(duì)數(shù)損失等等萎津，在實(shí)際項(xiàng)目中可根據(jù)自身的需要自行選擇評(píng)價(jià)指標(biāo)。

最后編輯于：2020.11.21 18:19:41

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末抹镊，一起剝皮案震驚了整個(gè)濱河市锉屈，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌垮耳，老刑警劉巖部念，帶你破解...
沈念sama閱讀 222,865評(píng)論 6贊 518
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異氨菇，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)妓湘，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,296評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門查蓉，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人榜贴，你說我怎么就攤上這事豌研。” “怎么了唬党？”我有些...
開封第一講書人閱讀 169,631評(píng)論 0贊 364
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵鹃共，是天一觀的道長(zhǎng)。經(jīng)常有香客問我驶拱，道長(zhǎng)霜浴，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 60,199評(píng)論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任蓝纲，我火速辦了婚禮阴孟，結(jié)果婚禮上晌纫，老公的妹妹穿的比我還像新娘。我一直安慰自己永丝，他們只是感情好锹漱，可當(dāng)我...
茶點(diǎn)故事閱讀 69,196評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著慕嚷，像睡著了一般哥牍。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上喝检，一...
開封第一講書人閱讀 52,793評(píng)論 1贊 314
城市分裂傳說
那天嗅辣，我揣著相機(jī)與錄音，去河邊找鬼蛇耀。笑死辩诞，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的纺涤。我是一名探鬼主播译暂，決...
沈念sama閱讀 41,221評(píng)論 3贊 423
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼撩炊！你這毒婦竟也來了外永？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 40,174評(píng)論 0贊 277
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤拧咳，失蹤者是張志新（化名）和其女友劉穎伯顶，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體骆膝，經(jīng)...
沈念sama閱讀 46,699評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡祭衩，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,770評(píng)論 3贊 343
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了阅签。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片掐暮。...
茶點(diǎn)故事閱讀 40,918評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖政钟，靈堂內(nèi)的尸體忽然破棺而出路克，到底是詐尸還是另有隱情，我是刑警寧澤养交，帶...
沈念sama閱讀 36,573評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布精算，位于F島的核電站，受9級(jí)特大地震影響碎连，放射性物質(zhì)發(fā)生泄漏灰羽。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,255評(píng)論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望谦趣。院中可真熱鬧疲吸，春花似錦、人聲如沸前鹅。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,749評(píng)論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽舰绘。三九已至蹂喻，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間捂寿，已是汗流浹背口四。一陣腳步聲響...
開封第一講書人閱讀 33,862評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留秦陋，地道東北人蔓彩。一個(gè)月前我還...
沈念sama閱讀 49,364評(píng)論 3贊 379
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像驳概，于是被迫代替她去往敵國(guó)和親赤嚼。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,926評(píng)論 2贊 361