檢索/搜索系統(tǒng)評(píng)價(jià)體系基礎(chǔ)構(gòu)建

? ? ? ?本文主要講解了檢索系統(tǒng)的評(píng)價(jià)體系構(gòu)建的基本方式稚矿,不涉及高深的數(shù)學(xué)公式庸诱,通過閱讀可以初步了解基本概念。

一晤揣、為什么需要建立完整的檢索評(píng)價(jià)體系

? ? ? ?人們?cè)诙攘渴挛锖脡牡臅r(shí)候桥爽,總是喜歡包含主觀標(biāo)記信息,這些信息都會(huì)給評(píng)價(jià)標(biāo)準(zhǔn)引入大量的復(fù)雜性昧识、延遲和誤差钠四,我們稱之為“噪聲”。不好的評(píng)價(jià)指標(biāo)往往充斥著人們對(duì)于所描述事物的不信任和二次猜忌跪楞,也會(huì)因此忽略了事物的某些特征而讓評(píng)價(jià)指標(biāo)不夠全面缀去。規(guī)則化是一個(gè)不錯(cuò)的概念,它能讓問題的描述和考慮更加的全面甸祭、不冗余缕碎,從而構(gòu)建出一個(gè)性能優(yōu)越的評(píng)價(jià)體系。

? ? ? ?在設(shè)計(jì)評(píng)價(jià)指標(biāo)的時(shí)候淋叶,一定要時(shí)刻銘記5個(gè)關(guān)鍵點(diǎn):代價(jià)成本阎曹、簡(jiǎn)潔性伪阶、可信性、準(zhǔn)確性和因果相關(guān)性处嫌。對(duì)于這幾個(gè)關(guān)鍵點(diǎn)的提升能夠直接幫助后續(xù)產(chǎn)品的改進(jìn)栅贴、用戶體驗(yàn)的提升,也能幫我們?cè)诟鞣N左右為難的權(quán)衡局面中做出合理和自然的取舍熏迹。

? ? ? ?實(shí)際工作中檐薯,簡(jiǎn)單性、低成本和構(gòu)造的有效性通常是對(duì)立的注暗,通常會(huì)為了追求簡(jiǎn)單和低成本性而破壞了構(gòu)造的有效性坛缕。很多公司或團(tuán)隊(duì)在這個(gè)方面投入了大量的人力物力,力求得到完美的平衡捆昏。結(jié)構(gòu)有效性設(shè)計(jì)的一個(gè)難點(diǎn)在于它使用的人類標(biāo)記信息赚楚,人類都具有主觀偏差性,對(duì)于標(biāo)簽的理解都存在著主觀性和差異性骗卜,所以個(gè)人在標(biāo)記過程中的準(zhǔn)則和標(biāo)準(zhǔn)都可能有所差異宠页,例如A童鞋將這個(gè)標(biāo)簽標(biāo)記為1,B童鞋就認(rèn)為應(yīng)該標(biāo)記為2寇仓。

? ? ? ?就目前而言举户,大多公司在追求簡(jiǎn)潔和低成本性的時(shí)候,缺少了可信性遍烦、準(zhǔn)確性和因果相關(guān)性俭嘁,所以很難根據(jù)這些客觀指標(biāo)去修改、完善和優(yōu)化算法服猪,進(jìn)一步優(yōu)化檢索系統(tǒng)供填。因?yàn)槲覀儾荒鼙WC用戶反饋體現(xiàn)了嚴(yán)格數(shù)學(xué)意義上的隨機(jī)抽樣,因此我們可能永遠(yuǎn)無法解決這個(gè)問題蔓姚,所以我們需要建立起一個(gè)完整的規(guī)則化的評(píng)價(jià)體系捕虽。

二、確定測(cè)試集構(gòu)建方案

? ? ? ?一個(gè)完整的測(cè)試集由三部分組成:文檔集坡脐、查詢集和相關(guān)判斷集泄私。

(一)文檔集

? ? ? ?文檔集是一組文檔的集和,確定了文檔的規(guī)模內(nèi)容范圍备闲。該組文檔被信息檢索系統(tǒng)用來進(jìn)行文字分析晌端,它是信息系統(tǒng)評(píng)估的數(shù)據(jù)基礎(chǔ),從各種數(shù)據(jù)源中選取并整理成符合規(guī)范格式的文檔恬砂,如期刊等咧纠。文檔集要具有代表性與多樣性,并且需要有一定規(guī)模泻骤。但不能一味增加測(cè)試集的規(guī)模漆羔,因?yàn)闀?huì)使相關(guān)判斷工作耗費(fèi)大量人力梧奢。

(二)查詢集

? ? ? ?查詢集是向信息檢索系統(tǒng)提出問題的集和,這些問題依據(jù)檢索系統(tǒng)和所需評(píng)估項(xiàng)目的不同演痒,可以是一個(gè)或一組關(guān)鍵詞亲轨,也可以是一段文字描述。根據(jù)文檔的具體內(nèi)容鸟顺,將文檔集劃分成多個(gè)類別惦蚊,然后按照類別將文檔分配給若干名構(gòu)建查詢主題的人員,構(gòu)建人員再根據(jù)具體內(nèi)容來創(chuàng)建查詢主題讯嫂。最后蹦锋,篩選得到的查詢主題,選出比較理想的查詢主題欧芽,并將其整理為統(tǒng)一的格式莉掂。查詢集分為2類構(gòu)建方式:

\bullet 第一類查詢內(nèi)容范圍比較大,此類內(nèi)容需要對(duì)其定義描述渐裸,并需要列出哪些內(nèi)容會(huì)與該主題相關(guān)巫湘,用來作為后續(xù)相關(guān)判斷的參考,一般有多個(gè)描述及對(duì)應(yīng)的答案昏鹃。如“筆記本”,對(duì)應(yīng)的答案應(yīng)該有“筆記本的分類”诀诊,“如何使用筆記本”洞渤,“筆記本維修”等等。

\bullet 第二類查詢內(nèi)容是一個(gè)顆粒度比較細(xì)致問題属瓣,問題本身就定義的比較清晰载迄,一般是一些比較固定的答案,如“林肯生日”抡蛙。

(三)相關(guān)判斷集

? ? ? ?相關(guān)判斷集制作非常耗費(fèi)時(shí)間护昧,所以需要查詢集問題的數(shù)量通常控制在幾百個(gè)左右粗截。相關(guān)判斷集是對(duì)應(yīng)查詢集中問題所給的一組標(biāo)準(zhǔn)答案的集和惋耙,它被用來比對(duì)信息檢索系統(tǒng)對(duì)于查詢集中的問題所給出的答案。相關(guān)判斷集的正確性和權(quán)威性非常重要熊昌,通常由人工手動(dòng)判斷獲得绽榛。人工判斷過程:所有相關(guān)判斷的賦值工作由若干名研究員分成2組進(jìn)行。分為初步判斷和檢查2個(gè)階段婿屹。第1階段,先由1組業(yè)務(wù)人員進(jìn)行判斷賦值灭美。第2階段,完成賦值后昂利,由另一組業(yè)務(wù)人員進(jìn)行檢查届腐。當(dāng)2組判斷工作完成后铁坎,將判斷結(jié)果進(jìn)行合并計(jì)算,得到相關(guān)判斷集犁苏。

三硬萍、檢索系統(tǒng)的評(píng)價(jià)指標(biāo)

? ? ? ?搜索引擎的檢索效果一般可以從相應(yīng)時(shí)間、查全率傀顾、查準(zhǔn)率等方面來衡量襟铭,其中查準(zhǔn)率和查全率又是最重要的2項(xiàng)指標(biāo)響應(yīng)時(shí)間是用戶輸入檢索開始查詢到檢索出結(jié)果的時(shí)間短曾。查準(zhǔn)率是指一次搜索結(jié)果集中符合用戶要求的數(shù)目與該詞搜索結(jié)果的總數(shù)之比寒砖。查全率是指一次搜索結(jié)果中符合用戶要求的數(shù)目與用戶查詢相關(guān)的總數(shù)之比。一個(gè)好的搜索引擎應(yīng)該具有較快的響應(yīng)速度嫉拐、高的查全率和查準(zhǔn)率哩都,或者有極大的相似度。

? ? ? ?查準(zhǔn)率=檢索出的相關(guān)信息量/ 檢索出的信息總量查全率

? ? ? ?查全率=檢索出的相關(guān)信息量/ 系統(tǒng)中的相關(guān)信息總量

查準(zhǔn)率金額查全率是相對(duì)的婉徘,當(dāng)查準(zhǔn)率高時(shí)漠嵌,查全率往往偏低;而查全率高時(shí)盖呼,查準(zhǔn)率往往偏低儒鹿。

檢索系統(tǒng)給出的答案和相關(guān)判斷集中的答案越相近,則證明該檢索系統(tǒng)的質(zhì)量越高几晤。?

  例如:在一次測(cè)試集檢索中约炎,共檢出文章10篇,其中相關(guān)判斷集中的文章為6篇(實(shí)際上檢索問題在相關(guān)判斷集中有12篇)蟹瘾,其余的4篇為非相關(guān)文章蓝撇,按照上述公式驾茴,本次檢索的查準(zhǔn)率=(6/10)×100%即60%胎撇,查全率=(6/12)×100%即50%热幔。

  利用上述公式,對(duì)每一次信息檢索众雷,都可計(jì)算出其查準(zhǔn)率和查全率灸拍,對(duì)檢索系統(tǒng)做出數(shù)據(jù)化的評(píng)價(jià)。

四报腔、模型評(píng)測(cè)指標(biāo)及展示方式

? ? ? ?信息檢索中株搔,一般以查準(zhǔn)率和查全率繪制P-R圖的方式進(jìn)行展示,也就是將測(cè)試集中每一個(gè)問題的查準(zhǔn)率和查全率當(dāng)成一個(gè)點(diǎn)纯蛾,然后將這些點(diǎn)連成線纤房。例如我測(cè)試集中的查詢集有200個(gè)問題,就會(huì)將這200個(gè)問題的準(zhǔn)確率和查全率都跑出來翻诉,如下圖所示:

然后以查全率為X坐標(biāo)軸炮姨,查準(zhǔn)率為Y坐標(biāo)軸捌刮,繪制成P-R圖:

P-R圖

? ? ? ?P-R曲線越靠近右上角,則模型的效果越好舒岸。圖上1绅作、2兩條曲線分別代表模型的兩次迭代,曲線2完全包住曲線1及代表第2次迭代的效果要比第1次的效果好蛾派。

五:總結(jié)

? ? ? ?根據(jù)筆者構(gòu)建的實(shí)際經(jīng)驗(yàn)俄认,整個(gè)評(píng)價(jià)體系構(gòu)建最難的地方在于如何構(gòu)建測(cè)試集,需要根據(jù)實(shí)際業(yè)務(wù)來構(gòu)建查詢集和相關(guān)判斷集洪乍,雖然非常耗費(fèi)人工時(shí)間眯杏,但是在評(píng)價(jià)體系構(gòu)建完成后,可以測(cè)量模型的性能是非常有意義的壳澳,為今后的迭代提供數(shù)據(jù)支持岂贩。

? ? ? ?另一方面,評(píng)測(cè)指標(biāo)還有ROC(接收者操作特征曲線)巷波、對(duì)數(shù)損失等等萎津,在實(shí)際項(xiàng)目中可根據(jù)自身的需要自行選擇評(píng)價(jià)指標(biāo)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末抹镊,一起剝皮案震驚了整個(gè)濱河市锉屈,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌垮耳,老刑警劉巖部念,帶你破解...
    沈念sama閱讀 222,865評(píng)論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異氨菇,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)妓湘,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,296評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門查蓉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人榜贴,你說我怎么就攤上這事豌研。” “怎么了唬党?”我有些...
    開封第一講書人閱讀 169,631評(píng)論 0 364
  • 文/不壞的土叔 我叫張陵鹃共,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我驶拱,道長(zhǎng)霜浴,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,199評(píng)論 1 300
  • 正文 為了忘掉前任蓝纲,我火速辦了婚禮阴孟,結(jié)果婚禮上晌纫,老公的妹妹穿的比我還像新娘。我一直安慰自己永丝,他們只是感情好锹漱,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,196評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著慕嚷,像睡著了一般哥牍。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上喝检,一...
    開封第一講書人閱讀 52,793評(píng)論 1 314
  • 那天嗅辣,我揣著相機(jī)與錄音,去河邊找鬼蛇耀。 笑死辩诞,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的纺涤。 我是一名探鬼主播译暂,決...
    沈念sama閱讀 41,221評(píng)論 3 423
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼撩炊!你這毒婦竟也來了外永?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,174評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤拧咳,失蹤者是張志新(化名)和其女友劉穎伯顶,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體骆膝,經(jīng)...
    沈念sama閱讀 46,699評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡祭衩,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,770評(píng)論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了阅签。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片掐暮。...
    茶點(diǎn)故事閱讀 40,918評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖政钟,靈堂內(nèi)的尸體忽然破棺而出路克,到底是詐尸還是另有隱情,我是刑警寧澤养交,帶...
    沈念sama閱讀 36,573評(píng)論 5 351
  • 正文 年R本政府宣布精算,位于F島的核電站,受9級(jí)特大地震影響碎连,放射性物質(zhì)發(fā)生泄漏灰羽。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,255評(píng)論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望谦趣。 院中可真熱鬧疲吸,春花似錦、人聲如沸前鹅。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,749評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽舰绘。三九已至蹂喻,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間捂寿,已是汗流浹背口四。 一陣腳步聲響...
    開封第一講書人閱讀 33,862評(píng)論 1 274
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留秦陋,地道東北人蔓彩。 一個(gè)月前我還...
    沈念sama閱讀 49,364評(píng)論 3 379
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像驳概,于是被迫代替她去往敵國(guó)和親赤嚼。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,926評(píng)論 2 361