2019-04-14 論文筆記---A SURVEY OF ONTOLOGY EVALUATION TECHNIQUES

A SURVEY OF ONTOLOGY EVALUATION TECHNIQUES

摘要本體論是一些感興趣領(lǐng)域的明確的正式概念化钓猬。 本體越來越多地用于各種領(lǐng)域,例如知識管理陨仅,信息提取和語義網(wǎng)壁袄。 本體評估是從特定應(yīng)用標準的角度評估給定本體的問題司倚,通常是為了確定幾個本體中哪一個最適合特定目的豆混。 本文介紹了本體評估的最新進展篓像。

1 INTRODUCTION

現(xiàn)代信息系統(tǒng)的焦點正在從“數(shù)據(jù)處理”轉(zhuǎn)向“概念處理”,這意味著處理的基本單元越來越少是原子數(shù)據(jù)皿伺,并且正在成為一種語義概念员辩,它諷刺解釋并存在于與其他概念的背景。本體通常用作通過提供相關(guān)概念和它們之間的關(guān)系來捕獲關(guān)于某個區(qū)域的知識的結(jié)構(gòu)鸵鸥。使特定學科或方法科學化的關(guān)鍵因素是評估和比較該領(lǐng)域內(nèi)的想法的能力奠滑。在處理本體形式的抽象時,語義Web研究領(lǐng)域也是如此脂男。本體是用于概念化知識的基本數(shù)據(jù)結(jié)構(gòu)养叛,但我們通常能夠構(gòu)建許多不同的本體,概念化相同的知識體系宰翅,并且我們應(yīng)該能夠說出哪些最適合某些預定義的標準弃甥。因此,如果要在語義Web和其他語義感知應(yīng)用程序中廣泛采用本體汁讼,則本體評估是必須解決的重要問題淆攻。面向眾多本體的用戶需要有一種評估方法,并決定哪一種最符合他們的要求嘿架。同樣瓶珊,構(gòu)建本體的人需要一種方法來評估結(jié)果本體,并可能指導構(gòu)建過程和任何細化步驟耸彪。自動或半自動本體學習技術(shù)還需要有效的評估措施伞芹,可用于從許多候選中選擇“最佳”本體,選擇學習算法的可調(diào)參數(shù)值蝉娜,或指導學習過程本身(如果后者被制定為通過搜索空間的路徑唱较。

2 A CLASSIFICATION OF ONTOLOGY EVALUATION APPROACHES

在文獻中已經(jīng)考慮了各種評估本體的方法,這取決于正在評估什么類型的本體以及用于何種目的召川。從廣義上講南缓,大多數(shù)評估方法屬于以下類別之一:

?基于將本體論與“黃金標準”(本身可能是本體論;例如MAEDCHE和STAAB,2002)進行比較的那些; ?那些基于在應(yīng)用程序中使用本體并評估結(jié)果的人(例如PORZEL&MALAKA荧呐,2004);

?涉及與本體所涵蓋的領(lǐng)域的數(shù)據(jù)來源(例如文檔集合)進行比較的那些(例如BREWSTER等汉形,2004);

??那些評估由人類進行評估的人,他們試圖評估本體符合一套預定標準倍阐,標準概疆,要求等的程度(例如,LOZANOTELLO和GóMEZ-PéREZ峰搪,2004)届案。

?除了上述評估類別之外,我們還可以根據(jù)評估級別對本體評估方法進行分組罢艾,如下所述楣颠。

本體是一個相當復雜的結(jié)構(gòu),通常更加切合實際地分別評估不同級別的本體咐蚯,而不是試圖直接評估本體作為一個整體童漩。如果我們想要一個主要是自動化的評估而不是完全由人類用戶/專家執(zhí)行,則尤其如此春锋〗门颍基于級別的方法的另一個原因是當在本體的構(gòu)造中使用自動學習技術(shù)時,所涉及的技術(shù)對于不同級別而言實質(zhì)上是不同的期奔。不同的作者已經(jīng)對各個級別進行了不同的定義侧馅,但這些不同的定義往往大致相似,通常涉及以下級別:

詞匯呐萌,詞匯或數(shù)據(jù)層馁痴。這里的重點是本體中包含哪些概念,實例肺孤,事實等罗晕,以及用于表示或識別這些概念的詞匯。對該級別的評估傾向于涉及與涉及問題域的各種數(shù)據(jù)源(例如赠堵,域特定文本語料庫)的比較小渊,以及諸如字符串相似性度量(例如,編輯距離)的技術(shù)茫叭。

層次結(jié)構(gòu)或分類酬屉。本體通常包括概念之間的分層關(guān)系。雖然也可以定義概念之間的各種其他關(guān)系揍愁,但is-a關(guān)系通常特別重要并且可能是特定評估工作的焦點呐萨。

其他語義關(guān)系。除了is-a之外吗垮,本體可以包含其他關(guān)系垛吗,并且可以分別評估這些關(guān)系。這通常包括精度和召回等措施

上下文或應(yīng)用程序級別本體可以是更大的本體集合的一部分烁登,并且可以引用或引用這些其他本體中的各種定義怯屉。在這種情況下,在評估時考慮此上下文可能很重要饵沧。另一種形式的上下文是使用本體的應(yīng)用程序;評估著眼于如何使用本體來影響應(yīng)用程序的結(jié)果锨络。

句法層面。對于大部分手動構(gòu)建的本體狼牺,對該級別的評估可能特別有意義羡儿。本體通常以特定的形式語言描述,并且必須與該語言的語法要求相匹配是钥。還可以考慮各種其他句法考慮因素掠归,例如自然語言文檔的存在缅叠,避免定義之間的循環(huán)等(GóMEZ-PéREZ,1994)虏冻。

結(jié)構(gòu)肤粱,建筑,設(shè)計厨相。這主要是對手動構(gòu)建的本體感興趣领曼。我們希望本體符合某些預定義的設(shè)計原則或標準;結(jié)構(gòu)問題涉及本體的組織及其對進一步發(fā)展的適用性(GóMEZ-PéREZ,1994,1996)蛮穿。這種評估通常完全手動進行庶骄。

下表總結(jié)了本節(jié)開頭列表中的哪些方法通常用于這些級別中的哪些級別。


3 EVALUATION ON THE LEXICAL/VOCABULARY AND CONCEPT/DATA LEVEL

可以用于評估本體的詞匯/詞匯級別的方法的示例是MAEDCHE AND STAAB(2002)提出的方法践磅〉サ螅基于Levenshtein編輯距離測量兩個弦之間的相似性,將其歸一化以產(chǎn)生范圍[0,1]中的分數(shù)音诈。然后通過獲取第一組的每個字符串幻碱,找到它與第二組中最相似的字符串的相似性,并對第一組的所有字符串求平均细溅,來定義兩組字符串之間的字符串匹配度量褥傍。可以采用在被評估的本體中用作概念標識符的所有字符串的集合喇聊,并將其與被認為是所考慮的問題域的概念的良好表示的“黃金標準”字符串集進行比較恍风。黃金標準實際上可能是另一個本體論(如Maedche和Staab的工作),或者它可以從文檔語料庫(見第7節(jié))統(tǒng)計誓篱,或由領(lǐng)域?qū)<覝蕚洹?/p>

本體的詞匯內(nèi)容也可以使用信息檢索中已知的精度和召回概念來評估朋贬。在此上下文中,精度將是本體詞匯條目(用作概念標識符的字符串)的百分比窜骄,其也出現(xiàn)在黃金標準中锦募,相對于本體詞的總數(shù)。召回是相對于黃金標準詞匯條目的總數(shù)邻遏,在本體中也作為概念標識符出現(xiàn)的黃金標準詞條的百分比糠亩。實現(xiàn)更寬容的匹配標準(允許同義詞等)的一種方法是使用來自WordNet或類似資源的上位詞來擴充每個詞條(BREWSTER等,2004);然后准验,不是測試兩個詞條的相等性赎线,而是可以測試它們相應(yīng)的詞組之間的重疊(每個詞包含一個帶有上位詞的條目)。

也可以使用相同的方法來評估其他級別上的本體的詞匯內(nèi)容糊饱,例如垂寥,用于標識關(guān)系,實例等的字符串

VELARDI等。 (2005)描述了一種評估本體學習系統(tǒng)的方法滞项,該系統(tǒng)采用一系列自然語言文本并試圖從中提取相關(guān)的特定領(lǐng)域概念(術(shù)語和短語)狭归,然后找到它們的定義(使用網(wǎng)絡(luò)搜索) 和WordNet條目)并通過is-a關(guān)系連接一些概念。 他們的評估方法的一部分是為多詞術(shù)語生成自然語言的光澤蓖扑。 然后可以由領(lǐng)域?qū)<以u估這些光澤唉铜,因此領(lǐng)域?qū)<也槐厥煜ねǔC枋霰倔w的正式語言。

4 EVALUATION OF TAXONOMIC AND OTHER SEMANTIC RELATIONS

BREWSTER等律杠。 (2004)建議使用數(shù)據(jù)驅(qū)動的方法來評估本體和文檔語料庫之間的結(jié)構(gòu)擬合程度。 (1)給定來自感興趣的域的文檔語料庫竞惋,基于EM的聚類算法用于以無監(jiān)督的方式確定隱藏的“主題”的概率混合模型柜去,使得每個文檔可以被建模為已經(jīng)生成混合主題。 (2)本體的每個概念c由一組術(shù)語表示拆宛,包括本體中的名稱和取自WordNet的該名稱的上位詞嗓奢。 (3)在聚類期間獲得的概率模型可用于針對由聚類算法識別的每個主題測量概念c與該主題的擬合程度。 (4)此時浑厚,如果我們要求每個概念至少適合某個主題股耽,我們就會獲得一種詞匯級別的本體評估技術(shù)∏或者物蝙,我們可能要求與同一主題相關(guān)的概念在本體中應(yīng)該密切相關(guān)(通過is-a和可能的其他關(guān)系)。這表明本體的結(jié)構(gòu)與領(lǐng)域特定的文檔語料庫中的主題的隱藏結(jié)構(gòu)相當合理敢艰。作為評估關(guān)系的方法诬乞,這種方法的一個缺點是難以考慮關(guān)系的方向性(例如,我們可能知道概念c1和c2應(yīng)該是相關(guān)的钠导,但我們不能真正推斷c1是否是-c2震嫉,或者c2是-c1,或者如果應(yīng)該使用一些完全不同的關(guān)系)牡属。

鑒于黃金標準票堵,關(guān)聯(lián)級別上的本體評估也可以基于精確度和召回度量,將本體論與人類提供的黃金標準或統(tǒng)計相關(guān)術(shù)語列表進行比較逮栅。 SPYNS(2005)使用它來評估從自然語言文本中自動提取一組lexons的方法悴势,即形式為<term1,role证芭,term2>的三元組瞳浦。不幸的是,準備黃金標準需要大量人工操作废士。

GUARINO AND WELTY(2002)討論了本體評估的一個不同方面叫潦。他們指出了幾個哲學概念(必要性,剛性官硝,統(tǒng)一性等)矗蕊,可以用來更好地理解本體中常見的各種語義關(guān)系的本質(zhì)短蜕,并發(fā)現(xiàn)本體結(jié)構(gòu)中可能存在的問題決策(例如,is-a有時用于表示某個類的元級特征傻咖,或者用于代替is-a-part-of朋魔,或用于表示術(shù)語可能具有多個含義)。這種方法的缺點是需要熟悉上述概念(如剛性)的經(jīng)過培訓的人類專家進行人工干預;專家應(yīng)該使用適當?shù)脑獢?shù)據(jù)標簽來注釋本體的概念卿操,從而可以自動檢查某些類型的錯誤警检。

?MAEDCHE和STAAB(2002)提出了幾種比較兩種本體關(guān)系方面的方法。雖然這在某種程度上是這種方法的缺點害淤,但一個重要的積極方面是扇雕,一旦定義了黃金標準,兩個本體的比較可以完全自動進行窥摄。給定層次結(jié)構(gòu)中的術(shù)語c的語義聯(lián)合體是其所有超概念和子概念的集合镶奉。給定兩個層次結(jié)構(gòu)H1,H2崭放,術(shù)語t可以表示H1中的一些概念c1和H2中的概念c2哨苛。然后,可以計算表示來自H2中c1的cotopy的概念的項集合币砂,以及表示來自c2的cotopy的概念的項集合;這兩個集合的重疊可以用來衡量術(shù)語t在兩個層次結(jié)構(gòu)H1和H2中的作用有多么相似建峭。然后可以計算出在兩個層次結(jié)構(gòu)中出現(xiàn)的所有術(shù)語的平均值;這是H1和H2之間相似性的度量。類似的想法也可用于比較除了a-a之外的其他關(guān)系道伟。

5 CONTEXT-LEVEL EVALUATION

有時迹缀,本體是可以相互引用的更大的本體集合的一部分(例如,一個本體可以使用在另一個本體中聲明的類或概念)蜜徽,例如在web上或在本體的一些機構(gòu)庫內(nèi)祝懂。該上下文可以用于以各種方式評估本體。例如拘鞋,DING等人的Swoogle搜索引擎砚蓬。 (2004)使用語義Web文檔之間的交叉引用來定義圖形,然后以類似于Google Web搜索引擎使用的PageRank的方式計算每個本體的分數(shù)盆色。在PATEL等人的OntoKhoj門戶中也使用了類似的方法灰蛙。 (2003年)。并非所有“鏈接”或本體之間的引用都被視為相同隔躲。例如摩梧,如果一個本體從另一個本體定義一個類的子類,則該引用可能被認為比一個本體僅使用另一個本體的類作為某個關(guān)系的域或范圍更重要宣旱。

或者仅父,評估的背景可由人類專家提供;例如,SUPEKAR(2005)提出使用元數(shù)據(jù)來增強本體,例如其設(shè)計策略笙纤,其他人如何使用它耗溜,以及本體用戶提供的“同行評審”。然后可以使用合適的搜索引擎來對該元數(shù)據(jù)執(zhí)行查詢省容,并且將幫助用戶決定使用存儲庫中的許多本體中的哪一個抖拴。

6 APPLICATION-BASED EVALUATION

通常,本體將用于某種應(yīng)用或任務(wù)腥椒。應(yīng)用程序的輸出或其在給定任務(wù)上的性能可能更好或更差阿宅,部分取決于其中使用的本體。因此寞酿,人們可能會爭辯說家夺,良好的本體論是一種有助于所討論的應(yīng)用程序在給定任務(wù)上產(chǎn)生良好結(jié)果的本體論。因此伐弹,可以簡單地通過將其插入應(yīng)用程序并評估應(yīng)用程序的結(jié)果來評估本體。這是優(yōu)雅的榨为,因為應(yīng)用程序的輸出可能是已經(jīng)存在相對簡單且無問題的評估方法的東西惨好。例如,PORZEL AND MALAKA(2004)描述了一種場景随闺,其中本體及其關(guān)系(都是-a和其他)主要用于確定兩個概念的含義有多緊密相關(guān)日川。該任務(wù)是語音識別問題,其中對任務(wù)的最終輸出的評估相對簡單(將句子的建議解釋與人類提供的金標準進行比較)矩乐。

基于應(yīng)用程序的本體評估方法也有幾個缺點:(1)我們看到本體在特定任務(wù)中以特定方式使用時是好還是壞龄句,但很難概括這一觀察結(jié)果; (2)本體論只是申請的一小部分,其對結(jié)果的影響可能相對較小和間接; (3)比較不同的本體只有在它們都可以插入同一個應(yīng)用程序時才有可能散罕。

7 DATA-DRIVEN EVALUATION

還可以通過將本體與關(guān)于本體所涉及的問題域的現(xiàn)有數(shù)據(jù)(通常是文本文檔的集合)進行比較來評估本體分歇。例如,PATEL等人欧漱。 (2003)展示了如何確定本體是否涉及特定主題职抡,并將本體分類為主題目錄:一個從本體中提取文本數(shù)據(jù)(例如概念和關(guān)系的名稱)并將其用作輸入文本分類模型(使用標準機器學習算法訓練)。

同樣误甚,BREWSTER等缚甩。 (2004)使用潛在語義分析從文檔語料庫中提取了一組相關(guān)的特定領(lǐng)域術(shù)語。然后可以使用域特定術(shù)語與本體中出現(xiàn)的術(shù)語(例如窑邦,作為概念的名稱)之間的重疊量來測量本體和語料庫之間的擬合擅威。

?對于包含大量事實信息的廣泛本體(例如Cyc,參見例如www.cyc.com)冈钦,文檔也可以用作關(guān)于外部世界的“事實”的來源郊丛,并且評估檢查是否這些事實也可以從本體論中得出。

8 MULTIPLE-CRITERIA APPROACHES

另一系列本體評估方法涉及從一組給定的本體中選擇一個好的本體(或一小部分有希望的本體),并將這個問題視為一個決策問題宾袜。為了幫助我們評估本體捻艳,我們可以使用基于定義多個決策標準或?qū)傩缘姆椒?對于每個標準,評估本體并給出數(shù)值分數(shù)庆猫。然后將本體的總分計算為其每個標準分數(shù)的加權(quán)和认轨。在許多其他環(huán)境中使用類似策略來選擇最佳候選者(例如,招標月培,撥款申請等)嘁字。缺點是可能需要人工專家的大量手動參與。實際上杉畜,本體評估的一般問題已被推遲或降級為如何評估關(guān)于個體評估標準的本體論的問題纪蜒。從積極的方面來看,這些方法使我們能夠結(jié)合第2節(jié)中討論的大多數(shù)水平的標準此叠。

BURTON-JONES等纯续。 (2004)提出了這種類型的方法,有十個簡單的標準:合法性(即句法錯誤的頻率)灭袁,豐富性(形式語言中有多少可用的語法特征實際上被本體使用)猬错,可解釋性(做出這些術(shù)語)本體中使用的也出現(xiàn)在WordNet中?)茸歧,一致性(本體中有多少概念涉及不一致)倦炒,清晰度(本體中使用的術(shù)語在WordNet中有多少含義?)软瞎,全面性(本體中的概念數(shù)量) 逢唤,相對于整個本體庫的平均值),準確性(本體中虛假語句的百分比)涤浇,相關(guān)性(涉及標記為對用戶/代理有用或可接受的語法特征的語句數(shù))鳖藕,權(quán)限(多少其他本體使用來自本體的概念),歷史(相對于庫/存儲庫中的其他本體芙代,已經(jīng)對該本體進行了多少次訪問)吊奢。

?福克斯等人纹烹。 (1998)提出了另一套標準页滚,然而這些標準更傾向于人工評估和本體評估。 LOZANO-TELLO和GóMEZPéREZ(2004)定義了一套更為詳細的117項標準铺呵,以三級框架組織裹驰。

9 CONCLUSIONS AND FUTURE WORK

本體評估仍然是本體支持的計算和語義Web領(lǐng)域中的一個重要的開放問題。 本體評估沒有單一的最佳或首選方法; 相反片挂,選擇合適的方法必須取決于評估的目的幻林,使用本體的應(yīng)用贞盯,以及我們試圖評估的本體的哪個方面。 我們認為沪饺,該領(lǐng)域未來的工作應(yīng)特別注重自動化本體評估躏敢,這是自動化本體處理技術(shù)健康發(fā)展的必要前提,可用于解決諸如本體學習整葡,人口件余,調(diào)解,匹配等諸多問題遭居。 上

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末啼器,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子俱萍,更是在濱河造成了極大的恐慌端壳,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,490評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件枪蘑,死亡現(xiàn)場離奇詭異损谦,居然都是意外死亡,警方通過查閱死者的電腦和手機岳颇,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評論 3 395
  • 文/潘曉璐 我一進店門成翩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人赦役,你說我怎么就攤上這事≌こ矗” “怎么了掂摔?”我有些...
    開封第一講書人閱讀 165,830評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長赢赊。 經(jīng)常有香客問我乙漓,道長,這世上最難降的妖魔是什么释移? 我笑而不...
    開封第一講書人閱讀 58,957評論 1 295
  • 正文 為了忘掉前任叭披,我火速辦了婚禮,結(jié)果婚禮上玩讳,老公的妹妹穿的比我還像新娘涩蜘。我一直安慰自己,他們只是感情好熏纯,可當我...
    茶點故事閱讀 67,974評論 6 393
  • 文/花漫 我一把揭開白布同诫。 她就那樣靜靜地躺著,像睡著了一般樟澜。 火紅的嫁衣襯著肌膚如雪误窖。 梳的紋絲不亂的頭發(fā)上叮盘,一...
    開封第一講書人閱讀 51,754評論 1 307
  • 那天,我揣著相機與錄音霹俺,去河邊找鬼柔吼。 笑死,一個胖子當著我的面吹牛丙唧,可吹牛的內(nèi)容都是我干的愈魏。 我是一名探鬼主播,決...
    沈念sama閱讀 40,464評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼艇棕,長吁一口氣:“原來是場噩夢啊……” “哼蝌戒!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起沼琉,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤北苟,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后打瘪,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體友鼻,經(jīng)...
    沈念sama閱讀 45,847評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,995評論 3 338
  • 正文 我和宋清朗相戀三年闺骚,在試婚紗的時候發(fā)現(xiàn)自己被綠了彩扔。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,137評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡僻爽,死狀恐怖虫碉,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情胸梆,我是刑警寧澤敦捧,帶...
    沈念sama閱讀 35,819評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站碰镜,受9級特大地震影響兢卵,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜绪颖,卻給世界環(huán)境...
    茶點故事閱讀 41,482評論 3 331
  • 文/蒙蒙 一秽荤、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧柠横,春花似錦窃款、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春仗处,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背防症。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評論 1 272
  • 我被黑心中介騙來泰國打工珠月, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留扩淀,地道東北人。 一個月前我還...
    沈念sama閱讀 48,409評論 3 373
  • 正文 我出身青樓啤挎,卻偏偏與公主長得像驻谆,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子庆聘,可洞房花燭夜當晚...
    茶點故事閱讀 45,086評論 2 355

推薦閱讀更多精彩內(nèi)容