2018-12-21

方法和原理

1 OverView

考慮將一條三元組(h,r,t)看做自然語(yǔ)言處理中一個(gè)句子, 我們決定使用RNN模型來(lái)解決三元組中實(shí)體和關(guān)系的缺失俭尖。模型主要利用了三元組中實(shí)體和關(guān)系的結(jié)構(gòu)信息份招。
考慮實(shí)體和關(guān)系的表現(xiàn)方式以及存在數(shù)量的巨大差異, 我們決定使用不同的RNN單元處理這兩種類型的數(shù)據(jù)达罗。我們使用的模型是一個(gè)兩層的RNN模型,模型架構(gòu)如下所示。

image.png

如圖共有兩層RNN燕酷,s,r分別表示實(shí)體輸入和關(guān)系輸入, c1,c2,c3,c4是不同的RNN單元周瞎, 其中c1,c2用來(lái)處理實(shí)體輸入苗缩, c3,c4處理關(guān)系輸入, hs,hr表示隱藏狀態(tài)声诸。最終模型將實(shí)體或關(guān)系的預(yù)測(cè)問(wèn)題轉(zhuǎn)化為分類任務(wù)酱讶,例如輸入給定的h,r,預(yù)測(cè)最有可能的t或者輸入給定的h,t彼乌,預(yù)測(cè)r泻肯。模型也可以只指定h或t,先預(yù)測(cè)關(guān)系r囤攀,再預(yù)測(cè)另一個(gè)r或h软免。

2 Deep Sequential Model

我們使用的模型用不同的RNN單元處理關(guān)系和實(shí)體,針對(duì)每個(gè)RNN單元焚挠,模型都嘗試學(xué)習(xí)兩種不同的參數(shù):

W_h^i= \begin{cases}E_{h}^{i} \\ R_{h}^{i}\end{cases}

W_{x}^{i}=\begin{cases}E_{x}^{i} \\ R_{x}^{i}\end{cases}

b^{i}=\begin{cases}b_{E}^{i}\quad x_{t} \in E \\ b_{R}^{i}\quad x_{t} \in R\end{cases}

其中E,R分別表示實(shí)體集以及關(guān)系集膏萧,我們的模型根據(jù)輸入可以自動(dòng)判斷出輸入類別并對(duì)實(shí)體和關(guān)系應(yīng)用不同的RNN單元。

3 Type-based Sampling

由于訓(xùn)練集里面有上萬(wàn)個(gè)實(shí)體蝌衔, 因此榛泛,最終用于分類的softmax層將具有超過(guò)10000的輸出大小。針對(duì)這種超大標(biāo)簽空間的分類問(wèn)題噩斟,一個(gè)比較實(shí)用的方法是采樣Softmax曹锨。 這種Softmax的原理可以由下列公式表示:

p_t=W_oh_t + b_o
L_t = -I(p_t, y_t) + log(\sum_{\tilde{y}\in NEG_t}exp(I(p_t, \tilde{y})))

其中,w和b分別為輸出層的權(quán)重以及偏置參數(shù),I(p_t, y_t)返回p_t的第y_t個(gè)值剃允, 模型首先使用一個(gè)全連接層將輸出層隱藏狀態(tài)h_t轉(zhuǎn)為一個(gè)不確定維度的概率分布向量沛简, 然后使用采樣softmax方法定義模型損失函數(shù)L_t齐鲤,公式中NEG_t表示在t時(shí)刻的負(fù)樣本集合,NEG_t的采樣規(guī)則基于類型椒楣,對(duì)于實(shí)體和關(guān)系分別有不同的采樣空間给郊,具體采樣公式定義如下:

NEG_t = \begin{cases} Z(E, n_e) \quad y_t \in E \\ Z(R, n_r) \quad y_t \in R \end{cases}

其中Z(E, n_e)表示根據(jù)對(duì)數(shù)均勻采樣器從實(shí)體集E采樣到的n_e個(gè)標(biāo)簽, Z(R, n_r)表示根據(jù)對(duì)數(shù)均勻采樣器從關(guān)系集R采樣到的n_r個(gè)標(biāo)簽。

4 Enhancing Entity Prediction with Relation Prediction

這一部分捧灰,我們嘗試使用關(guān)系預(yù)測(cè)來(lái)改進(jìn)實(shí)體預(yù)測(cè)的精度淆九,在后面的實(shí)驗(yàn)中證明了這一點(diǎn)。

在知識(shí)補(bǔ)全的經(jīng)典方法中毛俏, 轉(zhuǎn)置關(guān)系(互為逆關(guān)系)發(fā)揮了很大的作用炭庙。比如在預(yù)測(cè)(China, Contains, ?)時(shí), 就可以根據(jù)知識(shí)庫(kù)中已有的('Beijing', 'ContainedBy', 'China')來(lái)預(yù)測(cè)?位置可以為'Beijing'煌寇。因此對(duì)于r和它的轉(zhuǎn)置關(guān)系r^-焕蹄,考慮通過(guò)r-來(lái)增強(qiáng)對(duì)r的預(yù)測(cè)效果。 例如唧席, 當(dāng)需要為r預(yù)測(cè)t時(shí)擦盾,即預(yù)測(cè)(h, r, ?)的問(wèn)題, 在候選的多個(gè)實(shí)體中淌哟,分別對(duì)實(shí)體預(yù)測(cè)其轉(zhuǎn)置關(guān)系r^-迹卢, 結(jié)果為一個(gè)概率向量,每個(gè)位置元素表示對(duì)應(yīng)實(shí)體擁有屬性關(guān)系r^-的概率徒仓, 若一個(gè)實(shí)體對(duì)于r^-的擁有概率接近于0腐碱, 那么可以推斷它不太可能作為關(guān)系r的候選t實(shí)體,反之若實(shí)體對(duì)r^-的擁?yè)碛新式咏?掉弛,則表示其很有可能是r的候選t實(shí)體症见。更具體地對(duì)于(s, r, ?)的預(yù)測(cè),可以用下面公式表示各個(gè)候選實(shí)體對(duì)應(yīng)的預(yù)測(cè)概率:

p'(s, r, ?) = (p(E, r^-))^\alpha p(s, r, ?)

其中p(E, r^-)中每個(gè)元素都對(duì)應(yīng)一個(gè)實(shí)體擁有r^-關(guān)系的概率殃饿,\alpha為超參數(shù)谋作,其值小于1,用于控制關(guān)系預(yù)測(cè)對(duì)實(shí)體預(yù)測(cè)的影響程度乎芳。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末遵蚜,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子奈惑,更是在濱河造成了極大的恐慌吭净,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件肴甸,死亡現(xiàn)場(chǎng)離奇詭異寂殉,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)原在,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門友扰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)彤叉,“玉大人,你說(shuō)我怎么就攤上這事村怪∧芳幔” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵实愚,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我兔辅,道長(zhǎng)腊敲,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任维苔,我火速辦了婚禮碰辅,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘介时。我一直安慰自己没宾,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布沸柔。 她就那樣靜靜地躺著循衰,像睡著了一般。 火紅的嫁衣襯著肌膚如雪褐澎。 梳的紋絲不亂的頭發(fā)上会钝,一...
    開(kāi)封第一講書(shū)人閱讀 51,292評(píng)論 1 301
  • 那天,我揣著相機(jī)與錄音工三,去河邊找鬼迁酸。 笑死,一個(gè)胖子當(dāng)著我的面吹牛俭正,可吹牛的內(nèi)容都是我干的奸鬓。 我是一名探鬼主播,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼掸读,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼串远!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起寺枉,我...
    開(kāi)封第一講書(shū)人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤抑淫,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后姥闪,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體始苇,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年筐喳,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了催式。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片函喉。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖荣月,靈堂內(nèi)的尸體忽然破棺而出管呵,到底是詐尸還是另有隱情,我是刑警寧澤哺窄,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布捐下,位于F島的核電站,受9級(jí)特大地震影響萌业,放射性物質(zhì)發(fā)生泄漏坷襟。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一生年、第九天 我趴在偏房一處隱蔽的房頂上張望婴程。 院中可真熱鬧,春花似錦抱婉、人聲如沸档叔。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)衙四。三九已至,卻和暖如春患亿,著一層夾襖步出監(jiān)牢的瞬間届搁,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工窍育, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留卡睦,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓漱抓,卻偏偏與公主長(zhǎng)得像表锻,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子乞娄,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 說(shuō)明 該文檔轉(zhuǎn)自:Nelson Zhao 該代碼實(shí)現(xiàn)了一個(gè)基本的Seq2Seq模型瞬逊,包括以下部分: Encode...
    七月那個(gè)阿瓜呀閱讀 386評(píng)論 0 0
  • 9. 循環(huán)神經(jīng)網(wǎng)絡(luò) 場(chǎng)景描述 循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)是一種主流的深度學(xué)習(xí)...
    _龍雀閱讀 2,910評(píng)論 0 3
  • 前面的文章主要從理論的角度介紹了自然語(yǔ)言人機(jī)對(duì)話系統(tǒng)所可能涉及到的多個(gè)領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識(shí)。這篇文章仪或,甚至之后...
    我偏笑_NSNirvana閱讀 13,906評(píng)論 2 64
  • 其實(shí)說(shuō)起快速閱讀這個(gè)話題确镊,我還算是比較有發(fā)言權(quán)(捂嘴笑)。從小家里窮范删,可看的書(shū)比較少蕾域,大部分都是靠借,有的時(shí)候還要...
    小多媛媛閱讀 520評(píng)論 0 1
  • p2p排名第一 p2p排名第一 p2p排名第一
    樂(lè)統(tǒng)雅91711閱讀 442評(píng)論 0 0