論文閱讀:RDF graph summarization: principles, techniques and applications

論文:RDF graph summarization: principles, techniques and applications
原文鏈接
參考資料:
RDF-知乎
RDF的初步了解
RDF,RDFS與OWL

論文題目:RDF graph summarization: principles, techniques and applications
發(fā)表時(shí)間:EDBT Conference, March 26-29, 2019
論文作者:Haridimos Kondylakis  蛔六、Dimitris Kotzinos  耍目、Ioana Manolescu

論文作者詳細(xì)介紹:


Haridimos Kondylakis

FORTH-ICS 合作研究員苟跪,克里特島大學(xué)畢業(yè)(希臘)列敲,博士荚孵。
基于語(yǔ)義的大數(shù)據(jù)管理主題及其在醫(yī)療保健領(lǐng)域的應(yīng)用掷倔。
語(yǔ)義Web上的知識(shí)表示與管理,信息提取

Dimitris Kotzinos

FORTH-ICS 研究員较剃,克里特島大學(xué)畢業(yè)(希臘)咕别,博士。
從社交網(wǎng)絡(luò)中提取知識(shí),智能交通系統(tǒng),基于Web的信息系統(tǒng)写穴。

Ioana Manolescu

巴黎綜合理工學(xué)院惰拱,國(guó)家信息與自動(dòng)化研究所,領(lǐng)導(dǎo)者啊送。凡爾賽大學(xué)(法國(guó))偿短,博士。
處理大量擁有復(fù)雜結(jié)構(gòu)和語(yǔ)義的數(shù)據(jù)馋没,比如模型昔逗,算法和技術(shù)。

Introduction

隨著時(shí)代的發(fā)展披泪。圖數(shù)據(jù)集已經(jīng)越來(lái)越大了纤子,相應(yīng)的RDF數(shù)據(jù)集的規(guī)模已經(jīng)越來(lái)越龐大了,并且很復(fù)雜款票,所以我們需要對(duì)其進(jìn)行簡(jiǎn)化控硼。


圖數(shù)據(jù)

RDF數(shù)據(jù)集的規(guī)模已經(jīng)越來(lái)越龐大了,并且很復(fù)雜艾少,下圖是不同數(shù)據(jù)集之間的連接情況卡乾,所以我們需要對(duì)其進(jìn)行簡(jiǎn)化。不同領(lǐng)域間的數(shù)據(jù)連接情況缚够。


不同領(lǐng)域的數(shù)據(jù)連接情況

RDF and RDFS

The Resource Description Framework (RDF)
RDF 是知識(shí)圖譜中幔妨,用于描述事物的一種手段鹦赎,知識(shí)的形式化表示,用來(lái)描述半結(jié)構(gòu)化的知識(shí)。
主要是為了讓計(jì)算機(jī)理解我們的知識(shí)误堡,所以用這種方式存儲(chǔ)古话。是因?yàn)椋?jì)算機(jī)一直面臨著這樣的困境——無(wú)法獲取網(wǎng)絡(luò)文本的語(yǔ)義信息锁施。盡管近些年人工智能得到了長(zhǎng)足的發(fā)展陪踩,在某些任務(wù)上取得超越人類(lèi)的成績(jī),但實(shí)際上還是沒(méi)有擁有類(lèi)似與人的智力悉抵。有人認(rèn)為肩狂,這背后有一部分原因是機(jī)器缺少知識(shí)。
例如:現(xiàn)在給計(jì)算機(jī)輸入一句話(huà)“蘋(píng)果公司的ceo是一個(gè)叫庫(kù)克的人”姥饰,計(jì)算機(jī)并不知道平果公司表示的是叫蘋(píng)果的公司還是表示的是賣(mài)蘋(píng)果的公司傻谁。


RDF

為了讓計(jì)算機(jī)也能讀懂這個(gè)信息,所以需要RDF列粪,RDF將一條條知識(shí)描述為一個(gè)三元組审磁,由主語(yǔ)(Subject) – 謂語(yǔ)(Predicate) – 賓語(yǔ)(Object)組成
例如剛才那條信息可以寫(xiě)成{ 蘋(píng)果, 是, 公司 }, { 庫(kù)克, 是, 人 }, { 蘋(píng)果, CEO 是, 庫(kù)克 }
這樣我們就可以得到完整的信息。但是即便如此篱竭,依然能出現(xiàn)狀況力图,例如現(xiàn)在輸入一條信息,{ 蘋(píng)果, 是, 水果 }掺逼,現(xiàn)在蘋(píng)果又是公司,又是水果的瓤介,計(jì)算機(jī)可能就崩潰了吕喘,無(wú)法理解這種情況的出現(xiàn)。


RDF

所以我們會(huì)增加標(biāo)識(shí)符刑桑,例如這里可以用1表示蘋(píng)果公司中的蘋(píng)果氯质,用2表示水果中的蘋(píng)果,這樣就可以獨(dú)一無(wú)二的標(biāo)識(shí)這些信息祠斧。
RDF 中闻察,主語(yǔ)謂語(yǔ)賓語(yǔ)受類(lèi)型約束
主語(yǔ)可以是 IRI,或空結(jié)點(diǎn)
謂語(yǔ)只能是 IRI:關(guān)系是預(yù)先定義的
賓語(yǔ)可以是 IRI琢锋,也可以是字面量
RDF

上圖就是一個(gè)rdf圖的表現(xiàn)形式辕漂,顯示出了一本書(shū)的出版時(shí)間,標(biāo)題吴超,依據(jù)作者等等信息钉嘹。


RDF不足

但是rdf還是有所不足的,比如這里doi是一本書(shū)鲸阻,同時(shí)也是出版物跋涣,這種情況是經(jīng)常出現(xiàn)在rdf圖中的缨睡,同時(shí)還有右邊,一本書(shū)的作者和被誰(shuí)寫(xiě)陈辱,這兩個(gè)等價(jià)的關(guān)系奖年,也是經(jīng)常出現(xiàn)的,但是rdf中要體現(xiàn)的話(huà)沛贪,就只能預(yù)先定義陋守,這樣做是非常麻煩的。
于是乎鹏浅,提出了RDF Schema
RDFS

RDFS就是給在rdf中嗅义,經(jīng)常出現(xiàn)的關(guān)系做了提前的定義,方便在圖中的使用隐砸。!
其中subclassof就是子類(lèi)的意思之碗,subproperty就是子屬性的意思,domain和range就是季希,主語(yǔ)和賓語(yǔ)的取值范圍.褪那。RDFS就相當(dāng)于給RDF的詞組進(jìn)行了擴(kuò)充。
rdfs

將rdfs與rdf都用上時(shí)式塌,就是如下圖所示博敬,其中虛線,是更具上圖中的關(guān)系進(jìn)行推斷的峰尝,例如doi是Book偏窝,Book是Publication的子類(lèi),那doi當(dāng)然是Publication的子類(lèi)武学。

RDF summarization

對(duì)rdf進(jìn)行摘要的原理就是: quotient graphs(商圖)
當(dāng)然這種方法主要針對(duì)的是rdf的結(jié)構(gòu)進(jìn)行摘要祭往。

quotient graphs

商圖就是定義結(jié)點(diǎn)的等價(jià)關(guān)系,兩個(gè)結(jié)點(diǎn)的編號(hào)差值(i-j)能整出6火窒,那么就說(shuō)這兩個(gè)結(jié)點(diǎn)是等價(jià)的硼补。就可以得到上圖中,右邊的結(jié)構(gòu)熏矿。
RDF summarization

上圖的右邊就是RDF圖已骇,右邊就是摘要后的結(jié)構(gòu)。
我們?cè)谶@里定義等價(jià)關(guān)系票编,根據(jù)輸入褪储,輸出來(lái)定義等價(jià)關(guān)系。比如這里a1的輸入是a栏妖,輸出是空乱豆,a2也是如此,所以認(rèn)為a1和a2是等價(jià)的吊趾。于是進(jìn)行合并宛裕,最后得到右邊的圖瑟啃。
RDF summarization

但是這樣做可能會(huì)導(dǎo)致丟失信息,例如上圖右邊的Book和Person他們的輸入和輸出是一樣的揩尸,這樣會(huì)將它們作為等價(jià)結(jié)點(diǎn)進(jìn)行合并蛹屿,最終導(dǎo)致信息的丟失。
所以規(guī)定岩榆,對(duì)于class(也就是所屬的類(lèi)別)和property(邊上定義的那些關(guān)系)错负,只能和自己等價(jià),比如Book就只能和其他的Book結(jié)點(diǎn)等價(jià)勇边。
RDF summarization

根據(jù)我剛才的規(guī)則犹撒,可以對(duì)RDF進(jìn)行摘要,獲得上圖粒褒。
property cliques

現(xiàn)在识颊,我們可以對(duì)結(jié)點(diǎn)進(jìn)行新的關(guān)系定義,使這個(gè)摘要效果更好奕坟∠榭睿可以根據(jù)輸入屬性集和輸出屬性集來(lái)判斷結(jié)點(diǎn)的關(guān)系。其中的output屬性月杉,n1就是a , b , d的來(lái)源刃跛,因?yàn)閍 , b肯定相關(guān),n2那里有b , d , 所以b , d 相關(guān)苛萎,最后的出a , b , d 都是來(lái)源相關(guān)的桨昙。我們?cè)谶@里定義了另一種關(guān)系。在這里我們可以把n1當(dāng)作是一篇論文腌歉,那它會(huì)有作者绊率,標(biāo)題這些屬性,n2也是一篇論文究履,會(huì)有作者,何時(shí)出版這些屬性脸狸,而這些屬性很有可能同時(shí)出現(xiàn)在另外一篇論文中最仑,所以他們是來(lái)源相關(guān)的。我們這么做的理由是什么炊甲,因?yàn)橛型活?lèi)屬性的結(jié)點(diǎn)泥彤,就很有可能是等價(jià)的結(jié)點(diǎn)。
Weak clique-based summaries
基于弱集群的摘要
Weak clique-based summaries

弱屬性集群卿啡,就是對(duì)于結(jié)點(diǎn)來(lái)說(shuō)吟吝,只要在輸入屬性集群和輸出屬性集群里面,只要有一個(gè)相同颈娜,那么就認(rèn)為是等價(jià)的剑逃。比如這里的n1,n2,n3,n4浙宜,他們的輸出屬性集都是{a,b,d},雖然他們的輸入屬性集群蛹磺,并不都相同粟瞬。
Strong clique-based summaries
Strong clique-based summaries

顯然這個(gè)等價(jià)關(guān)系,就是要求結(jié)點(diǎn)的輸入屬性集群萤捆,和輸出屬性集群完全相同裙品,才是等價(jià)關(guān)系的,所以只有n1和n2能夠合并俗或,n3以及n4都要獨(dú)立存在市怎。
Adding types after data summarization
對(duì)于這個(gè)摘要,我們還并沒(méi)有對(duì)type進(jìn)行操作辛慰,也就是并沒(méi)有對(duì)圖中結(jié)點(diǎn)所屬的類(lèi)別進(jìn)行任何的摘要過(guò)程(圖中所屬的類(lèi)別就是使doi屬于Book,我們還并沒(méi)有對(duì)Book進(jìn)行任何的操作)
Data-then-type

第一種就是区匠,先對(duì)數(shù)據(jù)進(jìn)行了摘要的過(guò)程,在添加type昆雀,如上圖所示辱志。
Type-then-data

第二種就是先將type添加到數(shù)據(jù)上,再對(duì)數(shù)據(jù)進(jìn)行摘要過(guò)程狞膘,我們會(huì)得到完全不同圖形揩懒,因?yàn)橛辛藅ype,那么輸入輸出屬性集群就已經(jīng)發(fā)生改變了挽封。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末已球,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子辅愿,更是在濱河造成了極大的恐慌智亮,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,682評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件点待,死亡現(xiàn)場(chǎng)離奇詭異阔蛉,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)癞埠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)状原,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人苗踪,你說(shuō)我怎么就攤上這事颠区。” “怎么了通铲?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,083評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵毕莱,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng)朋截,這世上最難降的妖魔是什么蛹稍? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,763評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮质和,結(jié)果婚禮上稳摄,老公的妹妹穿的比我還像新娘。我一直安慰自己饲宿,他們只是感情好厦酬,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著瘫想,像睡著了一般仗阅。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上国夜,一...
    開(kāi)封第一講書(shū)人閱讀 51,624評(píng)論 1 305
  • 那天减噪,我揣著相機(jī)與錄音,去河邊找鬼车吹。 笑死筹裕,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的窄驹。 我是一名探鬼主播朝卒,決...
    沈念sama閱讀 40,358評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼乐埠!你這毒婦竟也來(lái)了抗斤?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,261評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤丈咐,失蹤者是張志新(化名)和其女友劉穎瑞眼,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體棵逊,經(jīng)...
    沈念sama閱讀 45,722評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡伤疙,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了辆影。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片掩浙。...
    茶點(diǎn)故事閱讀 40,030評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖秸歧,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情衅澈,我是刑警寧澤键菱,帶...
    沈念sama閱讀 35,737評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響经备,放射性物質(zhì)發(fā)生泄漏拭抬。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評(píng)論 3 330
  • 文/蒙蒙 一侵蒙、第九天 我趴在偏房一處隱蔽的房頂上張望造虎。 院中可真熱鬧,春花似錦纷闺、人聲如沸算凿。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,941評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)氓轰。三九已至,卻和暖如春浸卦,著一層夾襖步出監(jiān)牢的瞬間署鸡,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,057評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工限嫌, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留靴庆,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,237評(píng)論 3 371
  • 正文 我出身青樓怒医,卻偏偏與公主長(zhǎng)得像炉抒,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子裆熙,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容