隨著知識(shí)圖譜在人工智能各個(gè)領(lǐng)域的廣泛使用,知識(shí)圖譜受到越來(lái)越多AI研究人員的關(guān)注和學(xué)習(xí)杯矩,已經(jīng)成為人工智能邁向認(rèn)知系統(tǒng)的關(guān)鍵技術(shù)之一令哟。之前歹河,斯坦福大學(xué)的面向計(jì)算機(jī)視覺(jué)的CS231n和面向自然語(yǔ)言處理的CS224n成為了全球非常多AI研究人員的入門經(jīng)典學(xué)習(xí)課程。因此拆讯,斯坦福大學(xué)于今年3月開(kāi)設(shè)了一門專門面向知識(shí)圖譜的系列課程CS520驯耻,官網(wǎng)課程頁(yè):
https://web.stanford.edu/class/cs520/?web.stanford.edu
這門課程系統(tǒng)講解了知識(shí)圖譜的各項(xiàng)技術(shù)及應(yīng)用。前期崔慧,我們已經(jīng)對(duì)這門課程進(jìn)行了介紹拂蝎,可以參考鏈接:
對(duì)知識(shí)圖譜的告白:斯坦福大學(xué)CS520課程介紹
從現(xiàn)在開(kāi)始,讓我們一起來(lái)學(xué)習(xí)這門知識(shí)圖譜系列課程惶室。B站上已經(jīng)同步了課程視頻温自,并帶有中英文字幕,只是估計(jì)是機(jī)器自動(dòng)翻譯皇钞,效果大家看看就知道了悼泌。第一講視頻的B站地址:
【CS520】斯坦福大學(xué)2020春季知識(shí)圖譜課程(含中英字幕,自動(dòng)生成)_嗶哩嗶哩 (゜-゜)つロ 干杯~-bilibili?www.bilibili.com?
本期是CS520的第一講夹界,主要是簡(jiǎn)單介紹課程的整體內(nèi)容和重點(diǎn)講解知識(shí)圖譜的一些基本概念馆里,所有內(nèi)容筆者根據(jù)視頻學(xué)習(xí)內(nèi)容撰寫,如有理解有誤之處還請(qǐng)?zhí)岢雠u(píng)指正。
?
課程的組織者Vinay K. Chaudhri教授首先介紹了知識(shí)圖譜的幾個(gè)典型應(yīng)用:語(yǔ)義搜索鸠踪、知識(shí)問(wèn)答和數(shù)據(jù)集成丙者。前兩個(gè)是知識(shí)圖譜最常見(jiàn)的應(yīng)用,但是知識(shí)圖譜用于“數(shù)據(jù)集成”慢哈,數(shù)據(jù)集成百度百科:
對(duì)于數(shù)據(jù)集成蔓钟,百分點(diǎn)科技有一項(xiàng)《基于動(dòng)態(tài)知識(shí)圖譜的大規(guī)模數(shù)據(jù)集成技術(shù)》的研究工作,如有感興趣可以閱讀技術(shù)文檔:
一文帶你讀懂基于動(dòng)態(tài)知識(shí)圖譜的大規(guī)模數(shù)據(jù)集成技術(shù)
同時(shí)卵贱,在很多自然語(yǔ)言處理滥沫、計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)的相關(guān)研究中也都提到了知識(shí)圖譜,并且越來(lái)越普遍键俱。這些領(lǐng)域?qū)⒅R(shí)圖譜作為數(shù)據(jù)存儲(chǔ)方式兰绣,并通過(guò)相應(yīng)的算法使用和學(xué)習(xí)知識(shí)圖譜。
課程大綱:
這個(gè)課程系列需要學(xué)習(xí)的內(nèi)容從大的方面包括:
首先問(wèn)一些簡(jiǎn)單而基礎(chǔ)的問(wèn)題编振,例如是什么是知識(shí)圖譜缀辩。
我們?nèi)绾螛?gòu)建一個(gè)知識(shí)圖譜。
如何使用知識(shí)圖譜來(lái)進(jìn)行推理踪央。
如何與現(xiàn)代AI算法的結(jié)合臀玄,并且有哪些高價(jià)值的用例。
在課程尾聲畅蹂,將會(huì)討論知識(shí)圖譜還存在哪些開(kāi)放研究挑戰(zhàn)問(wèn)題健无。
課程設(shè)計(jì):
這門課程非常有意思的一點(diǎn)是,每節(jié)課都會(huì)邀請(qǐng)三名學(xué)者形成小組液斜,對(duì)于知識(shí)圖譜的某個(gè)方面累贤,每名學(xué)者都會(huì)帶來(lái)各自不同的觀點(diǎn)∩倨幔總體上臼膏,對(duì)于知識(shí)圖譜將會(huì)從來(lái)自傳統(tǒng)知識(shí)表示和數(shù)據(jù)庫(kù)的觀點(diǎn),包括在線數(shù)據(jù)管理系統(tǒng)以及機(jī)器學(xué)習(xí)和自然語(yǔ)言處理示损。包括30分鐘的展示和20分鐘的討論渗磅。
好了,接下來(lái)就是正式的課程內(nèi)容了检访,這一講的主題是什么是知識(shí)圖譜并且為什么知識(shí)圖譜是有用的夺溢?
第一位教授首先介紹了Wikidata,這是在2012年啟動(dòng)的一個(gè)開(kāi)放的知識(shí)圖譜烛谊,任何人都可以編輯风响,支持Wikipedia,提供了結(jié)構(gòu)化的鏈接數(shù)據(jù)丹禀,包含世界上很多有趣的話題状勤。
?
具體的一個(gè)在Wikidata中的例子鞋怀,安大略省這個(gè)實(shí)體和安大略省的一個(gè)城市溫特圖爾這個(gè)實(shí)體之間有一條邊鏈接這兩個(gè)實(shí)體,這條邊有一個(gè)標(biāo)簽為孿生行政機(jī)構(gòu)持搜,當(dāng)然實(shí)體和連接關(guān)系的標(biāo)簽可以用數(shù)字字母組成的id或者包括中文或德語(yǔ)等任何自己喜歡的方式來(lái)表示密似。在Wikidata中,有關(guān)于所有城市之間關(guān)聯(lián)關(guān)系的圖譜表示葫盼。
?
當(dāng)考慮各種實(shí)體和關(guān)系類別后残腌,會(huì)得到一個(gè)更全面豐富的知識(shí)圖譜:
?
?
整個(gè)知識(shí)圖譜包括8000多萬(wàn)節(jié)點(diǎn),其中包括基因蛋白質(zhì)贫导,病毒抛猫,城市中的人的各種事物等等。同時(shí)孩灯,知識(shí)圖譜中的邊也就是關(guān)系數(shù)量已經(jīng)突破了10億闺金。
?
除了Wikidata,美國(guó)國(guó)會(huì)圖書館也出版了大型RDF知識(shí)圖譜(上圖左)峰档,并且這個(gè)知識(shí)圖譜的數(shù)據(jù)已經(jīng)和Wikidata的數(shù)據(jù)進(jìn)行了融合败匹,前者的實(shí)體標(biāo)識(shí)符是以n開(kāi)頭的,而后者的實(shí)體標(biāo)識(shí)符是以q開(kāi)頭的讥巡。因此掀亩,將不同知識(shí)圖譜進(jìn)行融合就能得到一個(gè)大型知識(shí)圖譜。
有了這么多的三元組欢顷,我們能做什么呢归榕?
上圖中這樣的模式可以匹配出所有出生在溫特圖爾的人,繼續(xù)擴(kuò)展可以得出更多模式吱涉。使用構(gòu)建的圖數(shù)據(jù)庫(kù)和匹配模式就可以得到我們想要的查詢結(jié)果。
?
?
總結(jié):
知識(shí)圖譜很容易融合外里,數(shù)據(jù)庫(kù)無(wú)法直接拼接在一起怎爵,但是知識(shí)圖譜的融合就很容易,只要知道哪些節(jié)點(diǎn)具有相互關(guān)系就可以就行融合盅蝗。
知識(shí)圖譜支持推理鳖链,當(dāng)你知道兩個(gè)城市是姊妹城市也就可以知道這兩個(gè)是孿生機(jī)構(gòu)。
從開(kāi)放源上取得大量的知識(shí)圖譜墩莫,并將其整合建立自己的知識(shí)圖譜芙委。
可以采用圖模式作為查詢語(yǔ)言,比如SPARQL狂秦。
和機(jī)器學(xué)習(xí)相比灌侣,知識(shí)圖譜具有很強(qiáng)的可解釋性,可以給出每個(gè)節(jié)點(diǎn)具體表示什么裂问,因此更易于編輯和更改等侧啼。
第二位講者主要從一款知識(shí)圖譜建模軟件出發(fā)牛柒,從兩個(gè)角度介紹了知識(shí)圖譜:基于文檔和文本的知識(shí)圖譜和基于事件的知識(shí)圖譜,由于沒(méi)有太多概念和理論性的內(nèi)容痊乾,如果感興趣可以去看視頻(33:43開(kāi)始)皮壁。
重點(diǎn)來(lái)了:
相比于前兩位講者,第三位講者的課程內(nèi)容感覺(jué)更像傳統(tǒng)意義上的知識(shí)圖譜概念介紹和講解哪审,因此蛾魄,我們對(duì)這一部分進(jìn)行重點(diǎn)學(xué)習(xí)。
?
可以看到湿滓,將會(huì)從知識(shí)圖譜的定義滴须,知識(shí)圖譜的表示(例如現(xiàn)在比較流行的知識(shí)圖譜嵌入向量表示),以及從邏輯茉稠、數(shù)據(jù)庫(kù)描馅、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等多個(gè)角度理解知識(shí)圖譜和應(yīng)用。
?
定義知識(shí)圖譜可以有多種形式:
正式的數(shù)學(xué)形式:這個(gè)是在知識(shí)圖譜相關(guān)的學(xué)術(shù)論文中最常見(jiàn)的對(duì)知識(shí)圖譜的定義而线,給定實(shí)體集合E和關(guān)系集合R铭污,知識(shí)圖譜就是一個(gè)包含很多三元組的有向多關(guān)系圖。
定義模式:針對(duì)不同的主題的領(lǐng)域膀篮,定義一個(gè)模式嘹狞,與任意實(shí)體相互關(guān)聯(lián),感覺(jué)這種更像是所謂的本體建模誓竿。
包括模式和實(shí)例:這種從字面理解上應(yīng)該就是包括本體建模和實(shí)例知識(shí)圖譜磅网。
任意RDF/LPG/RDF* 都是一個(gè)知識(shí)圖譜,查閱資料了解到這里RDF和LPG都是比較主流的圖數(shù)據(jù)模型筷屡,LPG是一種屬性圖涧偷,而且我們熟知的Neo4j提出了為 LPG 圖數(shù)據(jù)庫(kù)創(chuàng)建標(biāo)準(zhǔn)查詢語(yǔ)言的建議(來(lái)源:
觀點(diǎn)|拋開(kāi)炒作看知識(shí)圖譜,為什么現(xiàn)在才爆發(fā)毙死?_開(kāi)放知識(shí)圖譜-CSDN博客_知識(shí)圖譜為什么在現(xiàn)在?
)燎潮。一般認(rèn)為L(zhǎng)PG是工業(yè)界應(yīng)用更廣泛的模型,RDF在學(xué)術(shù)界見(jiàn)的更多扼倘,學(xué)術(shù)研究中使用的知識(shí)圖譜一般都是以RDF標(biāo)準(zhǔn)構(gòu)建的包含三元組的知識(shí)圖譜确封。
?
知識(shí)圖譜可以理解為結(jié)構(gòu)化的世界模型,每一個(gè)領(lǐng)域例如歌唱領(lǐng)域有很多實(shí)體和關(guān)系來(lái)描述再菊,在圖中生命科學(xué)的數(shù)據(jù)集是棕色的爪喘,政府?dāng)?shù)據(jù)集是灰色的,圖中每一個(gè)小泡都是一個(gè)小的知識(shí)圖譜纠拔。因此秉剑,如何編碼這些世界模型和實(shí)體與關(guān)系,其實(shí)也就是如何進(jìn)行知識(shí)圖譜的表示稠诲。這里給出了兩個(gè)極性:符號(hào)表示和向量表示秃症。
?
當(dāng)使用符號(hào)來(lái)表示知識(shí)圖譜時(shí):
我們將實(shí)體和關(guān)系看成是一些字符串?dāng)?shù)組表示候址,將我們的所有對(duì)象都放在一個(gè)高維空間中,符號(hào)表示經(jīng)常在符號(hào)推理系統(tǒng)中使用种柑,也大量用于數(shù)據(jù)庫(kù)系統(tǒng)中岗仑。向量表示經(jīng)常用在一些CV和NLP的任務(wù)中。此外聚请,知識(shí)圖譜還有一些特點(diǎn)荠雕,比如開(kāi)放世界假設(shè)和封閉世界假設(shè),開(kāi)放世界假設(shè)意味著在知識(shí)圖譜中顯式地給出的事實(shí)默認(rèn)可能正確的驶赏,而時(shí)間演變意味著但是隨著時(shí)間的演變炸卑,這些事實(shí)可能會(huì)被改變,例如某個(gè)國(guó)家的總統(tǒng)隨著時(shí)間會(huì)發(fā)生改變煤傍。
?
這是一個(gè)在符號(hào)表示的角度給出的關(guān)于小羅伯特唐尼(I am Iron Man)的三元組的例子盖文,包括8個(gè)實(shí)體和6個(gè)關(guān)系。我們能夠編碼小羅伯特唐尼在哪里出生蚯姆,住在哪以及他的哪些電影五续,這里關(guān)系表示中用的dbp是知識(shí)出版社的名稱。
?
用向量表示的知識(shí)圖譜:
就是實(shí)體和關(guān)系都被從符號(hào)表示的空間嵌入到低維的空間中龄恋,例如實(shí)體保存在特定大小的張量中疙驾。因此,我們就可以用求和等函數(shù)來(lái)對(duì)知識(shí)圖譜中的實(shí)體進(jìn)行計(jì)算郭毕,在語(yǔ)義上相似的實(shí)體嵌入表示更加靠近它碎,比如和小羅伯特唐尼有關(guān)的實(shí)體比如復(fù)聯(lián)和鋼鐵俠數(shù)值表示也比較接近,這是知識(shí)圖譜嵌入算法最大的優(yōu)勢(shì)显押。
?
接下來(lái)扳肛,我們從不同角度理解知識(shí)圖譜。
首先是從邏輯的角度乘碑,也是數(shù)據(jù)庫(kù)中用的經(jīng)典方法:
其中挖息,關(guān)系都是一些二元謂詞。邏輯描述通常由三部分組成:TBox蝉仇、ABox和RBox。
?
第一部分是TBox殖蚕,包含一些模式和本體轿衔,本體定義了一些概念之間的關(guān)系。例如睦疫,成功的作家是至少有一項(xiàng)工作杰出的人物以及暢銷書害驹。第二部分是ABox,可以稱其為事實(shí)實(shí)例蛤育,例如SuccessfulAuthor(StanLee)表示斯坦李是一位成功的作家宛官。第三部分是RBox葫松,表示謂詞之間的層次結(jié)構(gòu),定義屬性和子屬性底洗。
?
從數(shù)據(jù)庫(kù)的角度理解知識(shí)圖譜:
對(duì)于不同數(shù)據(jù)源建立統(tǒng)一的視圖腋么,采用語(yǔ)義數(shù)據(jù)集成機(jī)制。將XML格式或CSV格式的數(shù)據(jù)轉(zhuǎn)換為知識(shí)圖譜亥揖,實(shí)體是表中的單元格珊擂,關(guān)系是表頭。
?
從計(jì)算機(jī)視覺(jué)中的知識(shí)圖譜:
可以建立一個(gè)由圖片中識(shí)別出的對(duì)象構(gòu)成的知識(shí)圖譜费变,目前場(chǎng)景圖生成在很多有關(guān)視覺(jué)推理的任務(wù)得到了廣泛利用摧扇,包括image captioning,VQA挚歧,Visual Dialogue等扛稽。在具有一定關(guān)系的圖中,例如人騎馬滑负,而馬在山前面在张,需要從圖片中推理出這些關(guān)系,并且目前有很多這樣關(guān)系數(shù)據(jù)集橙困。
?
自然語(yǔ)言處理中的知識(shí)圖譜:
如何從文本中構(gòu)建知識(shí)圖譜瞧掺,這就需要一些傳統(tǒng)的NLP的技術(shù)來(lái)解析我們的句子。對(duì)于一個(gè)句子凡傅,我們先知道哪些是命名實(shí)體辟狈,比如圖中左側(cè)給出的例子,愛(ài)因斯坦是德國(guó)出生夏跷,那愛(ài)因斯坦和德國(guó)應(yīng)該存在一定的隱性關(guān)系哼转,同時(shí)能夠知道相對(duì)論是理論物理學(xué)的一部分。完成這一任務(wù)需要兩個(gè)重要技術(shù)槽华,也就是需要實(shí)現(xiàn)更好的命名實(shí)體識(shí)別和關(guān)系鏈接壹蔓。
?
在不同的問(wèn)題中,相同名稱的實(shí)體可能具有不同的類別標(biāo)簽猫态,例如Apple可以是水果佣蓉,Apple也可以是具有Apple這個(gè)音樂(lè)專輯的公司,Apple也可以是硬件生產(chǎn)商亲雪。知識(shí)圖譜可以是命名實(shí)體識(shí)別的附加信息勇凭,比如在問(wèn)題Who is the CEO of Apple?中,這個(gè)Apple肯定不會(huì)是蘋果樹(shù)的果實(shí)义辕,也不是音樂(lè)專輯虾标,寧愿識(shí)別成硬件生產(chǎn)商。
?
關(guān)系鏈接:
上圖中灌砖,四個(gè)問(wèn)題中的所有關(guān)系都指向同一個(gè)謂詞璧函。知識(shí)圖譜Wikidata為我們提供了這些關(guān)系的list傀蚌,同義詞,關(guān)系的層級(jí)結(jié)構(gòu)和關(guān)系的約束蘸吓。
?
問(wèn)答系統(tǒng)中的知識(shí)圖譜:
當(dāng)有知識(shí)圖譜作為背景數(shù)據(jù)時(shí)善炫,就可以回答自然語(yǔ)言問(wèn)題。針對(duì)圖中的例子:小羅布特唐尼出演了多少部漫威電影美澳?就可以用SPARQL查詢來(lái)得到問(wèn)題的答案销部。當(dāng)然,首先得將自然語(yǔ)言問(wèn)題轉(zhuǎn)換為查詢語(yǔ)句制跟,得到小羅伯特唐尼出演的所有電影并計(jì)算這個(gè)電影集合中的總數(shù)舅桩。
?
語(yǔ)言模型中的知識(shí)圖譜:
很多人都在使用語(yǔ)言預(yù)訓(xùn)練模型來(lái)完成下游任務(wù)。傳統(tǒng)的語(yǔ)言模型只接受大型語(yǔ)料庫(kù)的文本訓(xùn)練雨膨。對(duì)預(yù)訓(xùn)練模型就行微調(diào)擂涛,在很多任務(wù)上就能得到很好的效果。最新的趨勢(shì)是在預(yù)訓(xùn)練語(yǔ)言模型中加入知識(shí)圖譜聊记。例如上圖中撒妈,知識(shí)圖譜提供了小羅布特唐尼的確切的事實(shí),可以直接得到和小羅布特唐尼有關(guān)的例如托尼斯塔克等實(shí)體信息排监,而不是像是從Wikipedia等非結(jié)構(gòu)化文本中遍歷整個(gè)Wikipedia狰右。講者表示這是一個(gè)很有發(fā)展前景的領(lǐng)域,明年會(huì)很很多論文涌現(xiàn)舆床。
?
總結(jié):
我們從圖結(jié)構(gòu)的世界模型來(lái)認(rèn)識(shí)什么是知識(shí)圖譜棋蚌,實(shí)體和關(guān)系能夠以不同的邏輯模式進(jìn)行組織,這個(gè)應(yīng)該是和數(shù)據(jù)的領(lǐng)域相關(guān)挨队。符號(hào)表示的知識(shí)圖譜在很多領(lǐng)域都很有用谷暮,包括人文和社會(huì)學(xué)科,例如即使一個(gè)實(shí)體有幾百種語(yǔ)言的標(biāo)簽盛垦,我們都可以用一個(gè)實(shí)體來(lái)表示湿弦,這是很酷的。此外腾夯,知識(shí)圖譜帶給機(jī)器學(xué)習(xí)和其他應(yīng)用更多的可擴(kuò)展性颊埃。
后續(xù)我們還會(huì)更新CS520接下來(lái)的課程的學(xué)習(xí)筆記。
往期精選:
知識(shí)圖譜最新權(quán)威綜述論文解讀:關(guān)系抽取
知識(shí)圖譜最新權(quán)威綜述論文解讀:實(shí)體發(fā)現(xiàn)
知識(shí)圖譜最新權(quán)威綜述論文解讀:知識(shí)圖譜補(bǔ)全部分
對(duì)知識(shí)圖譜的告白:斯坦福大學(xué)CS520課程介紹
知識(shí)圖譜最新權(quán)威綜述論文解讀:知識(shí)表示學(xué)習(xí)部分
手把手教你搭建一個(gè)中式菜譜知識(shí)圖譜可視化系統(tǒng)
如果對(duì)文章感興趣歡迎關(guān)注知乎專欄“人工智能遇上知識(shí)圖譜“蝶俱,也歡迎關(guān)注同名微信公眾號(hào)“人工智能遇上知識(shí)圖譜”班利,讓我們一起學(xué)習(xí)并交流討論人工智能與知識(shí)圖譜技術(shù)。