方法和原理
1 OverView
考慮將一條三元組(h,r,t)看做自然語(yǔ)言處理中一個(gè)句子, 我們決定使用RNN模型來(lái)解決三元組中實(shí)體和關(guān)系的缺失俭尖。模型主要利用了三元組中實(shí)體和關(guān)系的結(jié)構(gòu)信息份招。
考慮實(shí)體和關(guān)系的表現(xiàn)方式以及存在數(shù)量的巨大差異, 我們決定使用不同的RNN單元處理這兩種類型的數(shù)據(jù)达罗。我們使用的模型是一個(gè)兩層的RNN模型,模型架構(gòu)如下所示。
如圖共有兩層RNN燕酷,s,r分別表示實(shí)體輸入和關(guān)系輸入, c1,c2,c3,c4是不同的RNN單元周瞎, 其中c1,c2用來(lái)處理實(shí)體輸入苗缩, c3,c4處理關(guān)系輸入, hs,hr表示隱藏狀態(tài)声诸。最終模型將實(shí)體或關(guān)系的預(yù)測(cè)問(wèn)題轉(zhuǎn)化為分類任務(wù)酱讶,例如輸入給定的h,r,預(yù)測(cè)最有可能的t或者輸入給定的h,t彼乌,預(yù)測(cè)r泻肯。模型也可以只指定h或t,先預(yù)測(cè)關(guān)系r囤攀,再預(yù)測(cè)另一個(gè)r或h软免。
2 Deep Sequential Model
我們使用的模型用不同的RNN單元處理關(guān)系和實(shí)體,針對(duì)每個(gè)RNN單元焚挠,模型都嘗試學(xué)習(xí)兩種不同的參數(shù):
其中E,R分別表示實(shí)體集以及關(guān)系集膏萧,我們的模型根據(jù)輸入可以自動(dòng)判斷出輸入類別并對(duì)實(shí)體和關(guān)系應(yīng)用不同的RNN單元。
3 Type-based Sampling
由于訓(xùn)練集里面有上萬(wàn)個(gè)實(shí)體蝌衔, 因此榛泛,最終用于分類的softmax層將具有超過(guò)10000的輸出大小。針對(duì)這種超大標(biāo)簽空間的分類問(wèn)題噩斟,一個(gè)比較實(shí)用的方法是采樣Softmax曹锨。 這種Softmax的原理可以由下列公式表示:
其中,w和b分別為輸出層的權(quán)重以及偏置參數(shù),返回
的第
個(gè)值剃允, 模型首先使用一個(gè)全連接層將輸出層隱藏狀態(tài)
轉(zhuǎn)為一個(gè)不確定維度的概率分布向量沛简, 然后使用采樣softmax方法定義模型損失函數(shù)
齐鲤,公式中
表示在t時(shí)刻的負(fù)樣本集合,
的采樣規(guī)則基于類型椒楣,對(duì)于實(shí)體和關(guān)系分別有不同的采樣空間给郊,具體采樣公式定義如下:
其中表示根據(jù)對(duì)數(shù)均勻采樣器從實(shí)體集E采樣到的
個(gè)標(biāo)簽,
表示根據(jù)對(duì)數(shù)均勻采樣器從關(guān)系集R采樣到的
個(gè)標(biāo)簽。
4 Enhancing Entity Prediction with Relation Prediction
這一部分捧灰,我們嘗試使用關(guān)系預(yù)測(cè)來(lái)改進(jìn)實(shí)體預(yù)測(cè)的精度淆九,在后面的實(shí)驗(yàn)中證明了這一點(diǎn)。
在知識(shí)補(bǔ)全的經(jīng)典方法中毛俏, 轉(zhuǎn)置關(guān)系(互為逆關(guān)系)發(fā)揮了很大的作用炭庙。比如在預(yù)測(cè)(China, Contains, ?)時(shí), 就可以根據(jù)知識(shí)庫(kù)中已有的('Beijing', 'ContainedBy', 'China')來(lái)預(yù)測(cè)?位置可以為'Beijing'煌寇。因此對(duì)于r和它的轉(zhuǎn)置關(guān)系焕蹄,考慮通過(guò)r-來(lái)增強(qiáng)對(duì)r的預(yù)測(cè)效果。 例如唧席, 當(dāng)需要為r預(yù)測(cè)t時(shí)擦盾,即預(yù)測(cè)(h, r, ?)的問(wèn)題, 在候選的多個(gè)實(shí)體中淌哟,分別對(duì)實(shí)體預(yù)測(cè)其轉(zhuǎn)置關(guān)系
迹卢, 結(jié)果為一個(gè)概率向量,每個(gè)位置元素表示對(duì)應(yīng)實(shí)體擁有屬性關(guān)系
的概率徒仓, 若一個(gè)實(shí)體對(duì)于
的擁有概率接近于0腐碱, 那么可以推斷它不太可能作為關(guān)系r的候選t實(shí)體,反之若實(shí)體對(duì)
的擁?yè)碛新式咏?掉弛,則表示其很有可能是r的候選t實(shí)體症见。更具體地對(duì)于(s, r, ?)的預(yù)測(cè),可以用下面公式表示各個(gè)候選實(shí)體對(duì)應(yīng)的預(yù)測(cè)概率:
其中中每個(gè)元素都對(duì)應(yīng)一個(gè)實(shí)體擁有
關(guān)系的概率殃饿,
為超參數(shù)谋作,其值小于1,用于控制關(guān)系預(yù)測(cè)對(duì)實(shí)體預(yù)測(cè)的影響程度乎芳。