FOAF文件的清洗傍菇、檢索、繪圖

信息系統(tǒng)前沿課--范老師授課

第二次作業(yè)

一界赔、重新使用Markdown

熟悉語法桥嗤,了解Markdown的用法,選擇在線編輯工具簡書進行編輯仔蝌。

二泛领、回顧xml、rdf敛惊、Foaf

1渊鞋、xml語言

xml語言與HTML語言既相識有不同,在我的理解看來HTML語言更加注重的是簡潔、規(guī)范化的網(wǎng)絡(luò)設(shè)計語言锡宋,用來顯示網(wǎng)頁就好儡湾。xml語言我認為其復(fù)雜性是高于HTML語言的,設(shè)計其的主要作用應(yīng)該是著重于對于其要表現(xiàn)的內(nèi)容的數(shù)據(jù)表示执俩。以后的可讀性徐钠、遷移性、更新的難度應(yīng)該要低一些役首。

2尝丐、rdf資源描述框架

我覺得就是結(jié)構(gòu)化的xml框架,能夠描述xml文件中的各種數(shù)據(jù)區(qū)分數(shù)據(jù)與元數(shù)據(jù)衡奥。

3爹袁、Foaf

foaf文件是一種 XML/RDF 詞匯表,通過URL來找朋友矮固,構(gòu)建關(guān)聯(lián)數(shù)據(jù)失息,然后形成一種人與人之間相互聯(lián)系的社交網(wǎng)絡(luò)的一種小工具。

三档址、清洗數(shù)據(jù)

項目要求是清洗整理班級同學(xué)FOAF文件盹兢,使其符合RDF數(shù)據(jù)規(guī)范和關(guān)聯(lián)數(shù)據(jù)發(fā)布原則,首先我根據(jù)要求找不到FOAF清洗守伸,RDF規(guī)范檢查的工具蛤迎。所以我先退而求其次選擇了xml檢查工具,通過DTD的w3c在線檢查工具檢查并沒有發(fā)現(xiàn)時什么問題含友。我發(fā)現(xiàn)就文件是否正確的角度來說中英文并沒有檢測出什么不同的地方。

image.png

那么問題來了校辩,范老師究竟是想要我們做什么樣的數(shù)據(jù)清洗呢窘问?我決定進一步的探索,我選擇了網(wǎng)上推薦的一款開源編輯軟件editix xml editor

image.png

安裝后宜咒,新建工程并開始使用
通過檢測全部的文件我試圖發(fā)現(xiàn)全班同學(xué)的rdf是否有問題

image.png

結(jié)果不出所料


那么我想這里單單從語法惠赫、從用法的角度是沒有必要清洗foaf數(shù)據(jù)的必要了,那么問題來了故黑,我們該怎么做儿咱?我先分析了同學(xué)們的foaf文件
發(fā)現(xiàn)有幾點不同

  • 1、有的同學(xué)使用中文字符(其中中文字符在editxml中存在亂碼現(xiàn)象----懷疑應(yīng)該改成拼音或者英文表達)


    image.png
  • 2场晶、有的同學(xué)認識的人數(shù)不同

  • 3混埠、具體的在<foaf:knows>認識的人的標(biāo)簽下全部的同學(xué)都有
    <foaf:name>范煒</foaf:name>
    <foaf:mbox_sha1sum>762ec4260f2e1f25685e918a2f8adf9da6712be0</foaf:mbox_sha1sum>兩個標(biāo)簽但是并不是所有的都有


    image.png

    標(biāo)簽。去foaf網(wǎng)站查找后其實這本是

image.png

針對以上的幾點不同是我們需要優(yōu)先考慮的清洗的部分诗轻。
但是我發(fā)現(xiàn)還是沒有什么問題钳宪,所以我決定不要信任軟件的全部檢查,一個個查看同學(xué)的foaf文件

結(jié)果:軟件真是不能相信的

image.png
image.png

有的是少了person(06號)
學(xué)號尾號是17的同學(xué)少了person

image.png

尾號為18的同學(xué)刪除qq號后面數(shù)字后正常
22號也是相同的問題
經(jīng)過長時間認真的篩查后,清洗foaf的工作圓滿的完成了吏颖。

四搔体、將FOAF文件存入RDF TripleStore

下載apache jena .zip解壓
然后下載fusiki

image.png

解壓后打卡cmd

image.png
image.png

打開localhost:3030,然后進行上傳工作半醉。


image.png
image.png

然而在上傳的時候出現(xiàn)了很多的錯誤疚俱。為什么呢,出現(xiàn)編碼問題
經(jīng)過仔細的排查我發(fā)現(xiàn)有兩個解決途徑:
1缩多、將中文全部表示為英文標(biāo)識
2呆奕、通過notepad++將編碼格式改變


image.png

但是增加這一行后沒有解決問題
通過軟件更改編碼模式
最后我通過更改編碼格式來解決這個額問題

image.png

都上傳成功了
點擊edit

image.png

點擊info查看信息

五、使用SPARQL語法進行簡單查詢

SPARQL是為rdf開發(fā)的一種查詢語言和數(shù)據(jù)獲取協(xié)議瞧壮,反正就把它當(dāng)作關(guān)系型數(shù)據(jù)庫的sql語言進行nosql數(shù)據(jù)庫的查詢登馒。
進行最簡單的3元組查詢

image.png

調(diào)整limit可以改變查詢獲得的數(shù)量
調(diào)整offset可以跳過開始的條數(shù)
并且通過實驗我發(fā)現(xiàn)大小寫在sparql中都是可以的

查詢個人

image.png
image.png

在我看來這個data文件形成了一個大表,把所有foaf文件鏈接起來

image.png

接下來查詢失敗


查詢名字(賓語部分)

image.png

六咆槽、補充相關(guān)數(shù)據(jù)陈轿,建立數(shù)據(jù)關(guān)聯(lián)。

這里我查詢了一下并沒有具體的做法秦忿。
1麦射、創(chuàng)建新的節(jié)點
2、通過D2R服務(wù)器在語義Web上發(fā)布關(guān)系數(shù)據(jù)庫的工具

七灯谣、建立可視化關(guān)系圖

image.png
image.png

然而下載失敗
使用另外一個軟件


image.png

再次更換技術(shù)路線使用progege


image.png

在Protege中應(yīng)該是不能編輯OWL代碼的潜秋,但可以生成或?qū)С鯫WL、RDF代碼胎许。如果想直接編輯OWL代碼峻呛,然后在針對這種可視化的語言進行操作。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末辜窑,一起剝皮案震驚了整個濱河市钩述,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌穆碎,老刑警劉巖牙勘,帶你破解...
    沈念sama閱讀 222,252評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異所禀,居然都是意外死亡方面,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評論 3 399
  • 文/潘曉璐 我一進店門色徘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來恭金,“玉大人,你說我怎么就攤上這事褂策∥颠叮” “怎么了床蜘?”我有些...
    開封第一講書人閱讀 168,814評論 0 361
  • 文/不壞的土叔 我叫張陵,是天一觀的道長蔑水。 經(jīng)常有香客問我邢锯,道長,這世上最難降的妖魔是什么搀别? 我笑而不...
    開封第一講書人閱讀 59,869評論 1 299
  • 正文 為了忘掉前任丹擎,我火速辦了婚禮,結(jié)果婚禮上歇父,老公的妹妹穿的比我還像新娘蒂培。我一直安慰自己,他們只是感情好榜苫,可當(dāng)我...
    茶點故事閱讀 68,888評論 6 398
  • 文/花漫 我一把揭開白布护戳。 她就那樣靜靜地躺著,像睡著了一般垂睬。 火紅的嫁衣襯著肌膚如雪媳荒。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,475評論 1 312
  • 那天驹饺,我揣著相機與錄音钳枕,去河邊找鬼。 笑死赏壹,一個胖子當(dāng)著我的面吹牛鱼炒,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播蝌借,決...
    沈念sama閱讀 41,010評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼昔瞧,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了菩佑?” 一聲冷哼從身側(cè)響起自晰,我...
    開封第一講書人閱讀 39,924評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎擎鸠,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體缘圈,經(jīng)...
    沈念sama閱讀 46,469評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡劣光,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,552評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了糟把。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片绢涡。...
    茶點故事閱讀 40,680評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖遣疯,靈堂內(nèi)的尸體忽然破棺而出雄可,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 36,362評論 5 351
  • 正文 年R本政府宣布数苫,位于F島的核電站聪舒,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏虐急。R本人自食惡果不足惜箱残,卻給世界環(huán)境...
    茶點故事閱讀 42,037評論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望止吁。 院中可真熱鬧被辑,春花似錦、人聲如沸敬惦。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,519評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽俄删。三九已至宏怔,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間抗蠢,已是汗流浹背举哟。 一陣腳步聲響...
    開封第一講書人閱讀 33,621評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留迅矛,地道東北人妨猩。 一個月前我還...
    沈念sama閱讀 49,099評論 3 378
  • 正文 我出身青樓,卻偏偏與公主長得像秽褒,于是被迫代替她去往敵國和親壶硅。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,691評論 2 361

推薦閱讀更多精彩內(nèi)容