論文:RDF graph summarization: principles, techniques and applications
原文鏈接
參考資料:
RDF-知乎
RDF的初步了解
RDF,RDFS與OWL
論文題目:RDF graph summarization: principles, techniques and applications
發(fā)表時(shí)間:EDBT Conference, March 26-29, 2019
論文作者:Haridimos Kondylakis 蛔六、Dimitris Kotzinos 耍目、Ioana Manolescu
論文作者詳細(xì)介紹:
FORTH-ICS 合作研究員苟跪,克里特島大學(xué)畢業(yè)(希臘)列敲,博士荚孵。
基于語(yǔ)義的大數(shù)據(jù)管理主題及其在醫(yī)療保健領(lǐng)域的應(yīng)用掷倔。
語(yǔ)義Web上的知識(shí)表示與管理,信息提取
FORTH-ICS 研究員较剃,克里特島大學(xué)畢業(yè)(希臘)咕别,博士。
從社交網(wǎng)絡(luò)中提取知識(shí),智能交通系統(tǒng),基于Web的信息系統(tǒng)写穴。
巴黎綜合理工學(xué)院惰拱,國(guó)家信息與自動(dòng)化研究所,領(lǐng)導(dǎo)者啊送。凡爾賽大學(xué)(法國(guó))偿短,博士。
處理大量擁有復(fù)雜結(jié)構(gòu)和語(yǔ)義的數(shù)據(jù)馋没,比如模型昔逗,算法和技術(shù)。
Introduction
隨著時(shí)代的發(fā)展披泪。圖數(shù)據(jù)集已經(jīng)越來(lái)越大了纤子,相應(yīng)的RDF數(shù)據(jù)集的規(guī)模已經(jīng)越來(lái)越龐大了,并且很復(fù)雜款票,所以我們需要對(duì)其進(jìn)行簡(jiǎn)化控硼。
RDF數(shù)據(jù)集的規(guī)模已經(jīng)越來(lái)越龐大了,并且很復(fù)雜艾少,下圖是不同數(shù)據(jù)集之間的連接情況卡乾,所以我們需要對(duì)其進(jìn)行簡(jiǎn)化。不同領(lǐng)域間的數(shù)據(jù)連接情況缚够。
RDF and RDFS
The Resource Description Framework (RDF)
RDF 是知識(shí)圖譜中幔妨,用于描述事物的一種手段鹦赎,知識(shí)的形式化表示,用來(lái)描述半結(jié)構(gòu)化的知識(shí)。
主要是為了讓計(jì)算機(jī)理解我們的知識(shí)误堡,所以用這種方式存儲(chǔ)古话。是因?yàn)椋?jì)算機(jī)一直面臨著這樣的困境——無(wú)法獲取網(wǎng)絡(luò)文本的語(yǔ)義信息锁施。盡管近些年人工智能得到了長(zhǎng)足的發(fā)展陪踩,在某些任務(wù)上取得超越人類(lèi)的成績(jī),但實(shí)際上還是沒(méi)有擁有類(lèi)似與人的智力悉抵。有人認(rèn)為肩狂,這背后有一部分原因是機(jī)器缺少知識(shí)。
例如:現(xiàn)在給計(jì)算機(jī)輸入一句話(huà)“蘋(píng)果公司的ceo是一個(gè)叫庫(kù)克的人”姥饰,計(jì)算機(jī)并不知道平果公司表示的是叫蘋(píng)果的公司還是表示的是賣(mài)蘋(píng)果的公司傻谁。
為了讓計(jì)算機(jī)也能讀懂這個(gè)信息,所以需要RDF列粪,RDF將一條條知識(shí)描述為一個(gè)三元組审磁,由主語(yǔ)(Subject) – 謂語(yǔ)(Predicate) – 賓語(yǔ)(Object)組成
例如剛才那條信息可以寫(xiě)成{ 蘋(píng)果, 是, 公司 }, { 庫(kù)克, 是, 人 }, { 蘋(píng)果, CEO 是, 庫(kù)克 }
這樣我們就可以得到完整的信息。但是即便如此篱竭,依然能出現(xiàn)狀況力图,例如現(xiàn)在輸入一條信息,{ 蘋(píng)果, 是, 水果 }掺逼,現(xiàn)在蘋(píng)果又是公司,又是水果的瓤介,計(jì)算機(jī)可能就崩潰了吕喘,無(wú)法理解這種情況的出現(xiàn)。
所以我們會(huì)增加標(biāo)識(shí)符刑桑,例如這里可以用1表示蘋(píng)果公司中的蘋(píng)果氯质,用2表示水果中的蘋(píng)果,這樣就可以獨(dú)一無(wú)二的標(biāo)識(shí)這些信息祠斧。
RDF 中闻察,主語(yǔ)謂語(yǔ)賓語(yǔ)受類(lèi)型約束
主語(yǔ)可以是 IRI,或空結(jié)點(diǎn)
謂語(yǔ)只能是 IRI:關(guān)系是預(yù)先定義的
賓語(yǔ)可以是 IRI琢锋,也可以是字面量
上圖就是一個(gè)rdf圖的表現(xiàn)形式辕漂,顯示出了一本書(shū)的出版時(shí)間,標(biāo)題吴超,依據(jù)作者等等信息钉嘹。
但是rdf還是有所不足的,比如這里doi是一本書(shū)鲸阻,同時(shí)也是出版物跋涣,這種情況是經(jīng)常出現(xiàn)在rdf圖中的缨睡,同時(shí)還有右邊,一本書(shū)的作者和被誰(shuí)寫(xiě)陈辱,這兩個(gè)等價(jià)的關(guān)系奖年,也是經(jīng)常出現(xiàn)的,但是rdf中要體現(xiàn)的話(huà)沛贪,就只能預(yù)先定義陋守,這樣做是非常麻煩的。
于是乎鹏浅,提出了RDF Schema
RDFS就是給在rdf中嗅义,經(jīng)常出現(xiàn)的關(guān)系做了提前的定義,方便在圖中的使用隐砸。!
其中subclassof就是子類(lèi)的意思之碗,subproperty就是子屬性的意思,domain和range就是季希,主語(yǔ)和賓語(yǔ)的取值范圍.褪那。RDFS就相當(dāng)于給RDF的詞組進(jìn)行了擴(kuò)充。
將rdfs與rdf都用上時(shí)式塌,就是如下圖所示博敬,其中虛線,是更具上圖中的關(guān)系進(jìn)行推斷的峰尝,例如doi是Book偏窝,Book是Publication的子類(lèi),那doi當(dāng)然是Publication的子類(lèi)武学。
RDF summarization
對(duì)rdf進(jìn)行摘要的原理就是: quotient graphs(商圖)
當(dāng)然這種方法主要針對(duì)的是rdf的結(jié)構(gòu)進(jìn)行摘要祭往。
商圖就是定義結(jié)點(diǎn)的等價(jià)關(guān)系,兩個(gè)結(jié)點(diǎn)的編號(hào)差值(i-j)能整出6火窒,那么就說(shuō)這兩個(gè)結(jié)點(diǎn)是等價(jià)的硼补。就可以得到上圖中,右邊的結(jié)構(gòu)熏矿。
上圖的右邊就是RDF圖已骇,右邊就是摘要后的結(jié)構(gòu)。
我們?cè)谶@里定義等價(jià)關(guān)系票编,根據(jù)輸入褪储,輸出來(lái)定義等價(jià)關(guān)系。比如這里a1的輸入是a栏妖,輸出是空乱豆,a2也是如此,所以認(rèn)為a1和a2是等價(jià)的吊趾。于是進(jìn)行合并宛裕,最后得到右邊的圖瑟啃。
但是這樣做可能會(huì)導(dǎo)致丟失信息,例如上圖右邊的Book和Person他們的輸入和輸出是一樣的揩尸,這樣會(huì)將它們作為等價(jià)結(jié)點(diǎn)進(jìn)行合并蛹屿,最終導(dǎo)致信息的丟失。
所以規(guī)定岩榆,對(duì)于class(也就是所屬的類(lèi)別)和property(邊上定義的那些關(guān)系)错负,只能和自己等價(jià),比如Book就只能和其他的Book結(jié)點(diǎn)等價(jià)勇边。
根據(jù)我剛才的規(guī)則犹撒,可以對(duì)RDF進(jìn)行摘要,獲得上圖粒褒。
現(xiàn)在识颊,我們可以對(duì)結(jié)點(diǎn)進(jìn)行新的關(guān)系定義,使這個(gè)摘要效果更好奕坟∠榭睿可以根據(jù)輸入屬性集和輸出屬性集來(lái)判斷結(jié)點(diǎn)的關(guān)系。其中的output屬性月杉,n1就是a , b , d的來(lái)源刃跛,因?yàn)閍 , b肯定相關(guān),n2那里有b , d , 所以b , d 相關(guān)苛萎,最后的出a , b , d 都是來(lái)源相關(guān)的桨昙。我們?cè)谶@里定義了另一種關(guān)系。在這里我們可以把n1當(dāng)作是一篇論文腌歉,那它會(huì)有作者绊率,標(biāo)題這些屬性,n2也是一篇論文究履,會(huì)有作者,何時(shí)出版這些屬性脸狸,而這些屬性很有可能同時(shí)出現(xiàn)在另外一篇論文中最仑,所以他們是來(lái)源相關(guān)的。我們這么做的理由是什么炊甲,因?yàn)橛型活?lèi)屬性的結(jié)點(diǎn)泥彤,就很有可能是等價(jià)的結(jié)點(diǎn)。
Weak clique-based summaries
基于弱集群的摘要
弱屬性集群卿啡,就是對(duì)于結(jié)點(diǎn)來(lái)說(shuō)吟吝,只要在輸入屬性集群和輸出屬性集群里面,只要有一個(gè)相同颈娜,那么就認(rèn)為是等價(jià)的剑逃。比如這里的n1,n2,n3,n4浙宜,他們的輸出屬性集都是{a,b,d},雖然他們的輸入屬性集群蛹磺,并不都相同粟瞬。
Strong clique-based summaries
顯然這個(gè)等價(jià)關(guān)系,就是要求結(jié)點(diǎn)的輸入屬性集群萤捆,和輸出屬性集群完全相同裙品,才是等價(jià)關(guān)系的,所以只有n1和n2能夠合并俗或,n3以及n4都要獨(dú)立存在市怎。
Adding types after data summarization
對(duì)于這個(gè)摘要,我們還并沒(méi)有對(duì)type進(jìn)行操作辛慰,也就是并沒(méi)有對(duì)圖中結(jié)點(diǎn)所屬的類(lèi)別進(jìn)行任何的摘要過(guò)程(圖中所屬的類(lèi)別就是使doi屬于Book,我們還并沒(méi)有對(duì)Book進(jìn)行任何的操作)
第一種就是区匠,先對(duì)數(shù)據(jù)進(jìn)行了摘要的過(guò)程,在添加type昆雀,如上圖所示辱志。
第二種就是先將type添加到數(shù)據(jù)上,再對(duì)數(shù)據(jù)進(jìn)行摘要過(guò)程狞膘,我們會(huì)得到完全不同圖形揩懒,因?yàn)橛辛藅ype,那么輸入輸出屬性集群就已經(jīng)發(fā)生改變了挽封。