? ? ? ?本文主要講解了檢索系統(tǒng)的評(píng)價(jià)體系構(gòu)建的基本方式稚矿,不涉及高深的數(shù)學(xué)公式庸诱,通過閱讀可以初步了解基本概念。
一晤揣、為什么需要建立完整的檢索評(píng)價(jià)體系
? ? ? ?人們?cè)诙攘渴挛锖脡牡臅r(shí)候桥爽,總是喜歡包含主觀標(biāo)記信息,這些信息都會(huì)給評(píng)價(jià)標(biāo)準(zhǔn)引入大量的復(fù)雜性昧识、延遲和誤差钠四,我們稱之為“噪聲”。不好的評(píng)價(jià)指標(biāo)往往充斥著人們對(duì)于所描述事物的不信任和二次猜忌跪楞,也會(huì)因此忽略了事物的某些特征而讓評(píng)價(jià)指標(biāo)不夠全面缀去。規(guī)則化是一個(gè)不錯(cuò)的概念,它能讓問題的描述和考慮更加的全面甸祭、不冗余缕碎,從而構(gòu)建出一個(gè)性能優(yōu)越的評(píng)價(jià)體系。
? ? ? ?在設(shè)計(jì)評(píng)價(jià)指標(biāo)的時(shí)候淋叶,一定要時(shí)刻銘記5個(gè)關(guān)鍵點(diǎn):代價(jià)成本阎曹、簡(jiǎn)潔性伪阶、可信性、準(zhǔn)確性和因果相關(guān)性处嫌。對(duì)于這幾個(gè)關(guān)鍵點(diǎn)的提升能夠直接幫助后續(xù)產(chǎn)品的改進(jìn)栅贴、用戶體驗(yàn)的提升,也能幫我們?cè)诟鞣N左右為難的權(quán)衡局面中做出合理和自然的取舍熏迹。
? ? ? ?實(shí)際工作中檐薯,簡(jiǎn)單性、低成本和構(gòu)造的有效性通常是對(duì)立的注暗,通常會(huì)為了追求簡(jiǎn)單和低成本性而破壞了構(gòu)造的有效性坛缕。很多公司或團(tuán)隊(duì)在這個(gè)方面投入了大量的人力物力,力求得到完美的平衡捆昏。結(jié)構(gòu)有效性設(shè)計(jì)的一個(gè)難點(diǎn)在于它使用的人類標(biāo)記信息赚楚,人類都具有主觀偏差性,對(duì)于標(biāo)簽的理解都存在著主觀性和差異性骗卜,所以個(gè)人在標(biāo)記過程中的準(zhǔn)則和標(biāo)準(zhǔn)都可能有所差異宠页,例如A童鞋將這個(gè)標(biāo)簽標(biāo)記為1,B童鞋就認(rèn)為應(yīng)該標(biāo)記為2寇仓。
? ? ? ?就目前而言举户,大多公司在追求簡(jiǎn)潔和低成本性的時(shí)候,缺少了可信性遍烦、準(zhǔn)確性和因果相關(guān)性俭嘁,所以很難根據(jù)這些客觀指標(biāo)去修改、完善和優(yōu)化算法服猪,進(jìn)一步優(yōu)化檢索系統(tǒng)供填。因?yàn)槲覀儾荒鼙WC用戶反饋體現(xiàn)了嚴(yán)格數(shù)學(xué)意義上的隨機(jī)抽樣,因此我們可能永遠(yuǎn)無法解決這個(gè)問題蔓姚,所以我們需要建立起一個(gè)完整的規(guī)則化的評(píng)價(jià)體系捕虽。
二、確定測(cè)試集構(gòu)建方案
? ? ? ?一個(gè)完整的測(cè)試集由三部分組成:文檔集坡脐、查詢集和相關(guān)判斷集泄私。
(一)文檔集
? ? ? ?文檔集是一組文檔的集和,確定了文檔的規(guī)模和內(nèi)容范圍备闲。該組文檔被信息檢索系統(tǒng)用來進(jìn)行文字分析晌端,它是信息系統(tǒng)評(píng)估的數(shù)據(jù)基礎(chǔ),從各種數(shù)據(jù)源中選取并整理成符合規(guī)范格式的文檔恬砂,如期刊等咧纠。文檔集要具有代表性與多樣性,并且需要有一定規(guī)模泻骤。但不能一味增加測(cè)試集的規(guī)模漆羔,因?yàn)闀?huì)使相關(guān)判斷工作耗費(fèi)大量人力梧奢。
(二)查詢集
? ? ? ?查詢集是向信息檢索系統(tǒng)提出問題的集和,這些問題依據(jù)檢索系統(tǒng)和所需評(píng)估項(xiàng)目的不同演痒,可以是一個(gè)或一組關(guān)鍵詞亲轨,也可以是一段文字描述。根據(jù)文檔的具體內(nèi)容鸟顺,將文檔集劃分成多個(gè)類別惦蚊,然后按照類別將文檔分配給若干名構(gòu)建查詢主題的人員,構(gòu)建人員再根據(jù)具體內(nèi)容來創(chuàng)建查詢主題讯嫂。最后蹦锋,篩選得到的查詢主題,選出比較理想的查詢主題欧芽,并將其整理為統(tǒng)一的格式莉掂。查詢集分為2類構(gòu)建方式:
第一類查詢內(nèi)容范圍比較大,此類內(nèi)容需要對(duì)其定義描述渐裸,并需要列出哪些內(nèi)容會(huì)與該主題相關(guān)巫湘,用來作為后續(xù)相關(guān)判斷的參考,一般有多個(gè)描述及對(duì)應(yīng)的答案昏鹃。如“筆記本”,對(duì)應(yīng)的答案應(yīng)該有“筆記本的分類”诀诊,“如何使用筆記本”洞渤,“筆記本維修”等等。
第二類查詢內(nèi)容是一個(gè)顆粒度比較細(xì)致問題属瓣,問題本身就定義的比較清晰载迄,一般是一些比較固定的答案,如“林肯生日”抡蛙。
(三)相關(guān)判斷集
? ? ? ?相關(guān)判斷集制作非常耗費(fèi)時(shí)間护昧,所以需要查詢集問題的數(shù)量通常控制在幾百個(gè)左右粗截。相關(guān)判斷集是對(duì)應(yīng)查詢集中問題所給的一組標(biāo)準(zhǔn)答案的集和惋耙,它被用來比對(duì)信息檢索系統(tǒng)對(duì)于查詢集中的問題所給出的答案。相關(guān)判斷集的正確性和權(quán)威性非常重要熊昌,通常由人工手動(dòng)判斷獲得绽榛。人工判斷過程:所有相關(guān)判斷的賦值工作由若干名研究員分成2組進(jìn)行。分為初步判斷和檢查2個(gè)階段婿屹。第1階段,先由1組業(yè)務(wù)人員進(jìn)行判斷賦值灭美。第2階段,完成賦值后昂利,由另一組業(yè)務(wù)人員進(jìn)行檢查届腐。當(dāng)2組判斷工作完成后铁坎,將判斷結(jié)果進(jìn)行合并計(jì)算,得到相關(guān)判斷集犁苏。
三硬萍、檢索系統(tǒng)的評(píng)價(jià)指標(biāo)
? ? ? ?搜索引擎的檢索效果一般可以從相應(yīng)時(shí)間、查全率傀顾、查準(zhǔn)率等方面來衡量襟铭,其中查準(zhǔn)率和查全率又是最重要的2項(xiàng)指標(biāo)。響應(yīng)時(shí)間是用戶輸入檢索開始查詢到檢索出結(jié)果的時(shí)間短曾。查準(zhǔn)率是指一次搜索結(jié)果集中符合用戶要求的數(shù)目與該詞搜索結(jié)果的總數(shù)之比寒砖。查全率是指一次搜索結(jié)果中符合用戶要求的數(shù)目與用戶查詢相關(guān)的總數(shù)之比。一個(gè)好的搜索引擎應(yīng)該具有較快的響應(yīng)速度嫉拐、高的查全率和查準(zhǔn)率哩都,或者有極大的相似度。
? ? ? ?查準(zhǔn)率=檢索出的相關(guān)信息量/ 檢索出的信息總量查全率
? ? ? ?查全率=檢索出的相關(guān)信息量/ 系統(tǒng)中的相關(guān)信息總量
查準(zhǔn)率金額查全率是相對(duì)的婉徘,當(dāng)查準(zhǔn)率高時(shí)漠嵌,查全率往往偏低;而查全率高時(shí)盖呼,查準(zhǔn)率往往偏低儒鹿。
檢索系統(tǒng)給出的答案和相關(guān)判斷集中的答案越相近,則證明該檢索系統(tǒng)的質(zhì)量越高几晤。?
例如:在一次測(cè)試集檢索中约炎,共檢出文章10篇,其中相關(guān)判斷集中的文章為6篇(實(shí)際上檢索問題在相關(guān)判斷集中有12篇)蟹瘾,其余的4篇為非相關(guān)文章蓝撇,按照上述公式驾茴,本次檢索的查準(zhǔn)率=(6/10)×100%即60%胎撇,查全率=(6/12)×100%即50%热幔。
利用上述公式,對(duì)每一次信息檢索众雷,都可計(jì)算出其查準(zhǔn)率和查全率灸拍,對(duì)檢索系統(tǒng)做出數(shù)據(jù)化的評(píng)價(jià)。
四报腔、模型評(píng)測(cè)指標(biāo)及展示方式
? ? ? ?信息檢索中株搔,一般以查準(zhǔn)率和查全率繪制P-R圖的方式進(jìn)行展示,也就是將測(cè)試集中每一個(gè)問題的查準(zhǔn)率和查全率當(dāng)成一個(gè)點(diǎn)纯蛾,然后將這些點(diǎn)連成線纤房。例如我測(cè)試集中的查詢集有200個(gè)問題,就會(huì)將這200個(gè)問題的準(zhǔn)確率和查全率都跑出來翻诉,如下圖所示:
然后以查全率為X坐標(biāo)軸炮姨,查準(zhǔn)率為Y坐標(biāo)軸捌刮,繪制成P-R圖:
? ? ? ?P-R曲線越靠近右上角,則模型的效果越好舒岸。圖上1绅作、2兩條曲線分別代表模型的兩次迭代,曲線2完全包住曲線1及代表第2次迭代的效果要比第1次的效果好蛾派。
五:總結(jié)
? ? ? ?根據(jù)筆者構(gòu)建的實(shí)際經(jīng)驗(yàn)俄认,整個(gè)評(píng)價(jià)體系構(gòu)建最難的地方在于如何構(gòu)建測(cè)試集,需要根據(jù)實(shí)際業(yè)務(wù)來構(gòu)建查詢集和相關(guān)判斷集洪乍,雖然非常耗費(fèi)人工時(shí)間眯杏,但是在評(píng)價(jià)體系構(gòu)建完成后,可以測(cè)量模型的性能是非常有意義的壳澳,為今后的迭代提供數(shù)據(jù)支持岂贩。
? ? ? ?另一方面,評(píng)測(cè)指標(biāo)還有ROC(接收者操作特征曲線)巷波、對(duì)數(shù)損失等等萎津,在實(shí)際項(xiàng)目中可根據(jù)自身的需要自行選擇評(píng)價(jià)指標(biāo)。