2 關系提取技術

關系抽取需要從文本中抽取兩個或多個實體之間的語義關系,主要方法有下面幾類:

基于模板的方法(hand-written patterns)

基于觸發(fā)詞/字符串

基于依存句法

監(jiān)督學習(supervised machine learning)

機器學習

深度學習(Pipeline vs Joint Model)

半監(jiān)督/無監(jiān)督學習(semi-supervised and unsupervised)

Bootstrapping

Distant supervision

Unsupervised learning from the web

規(guī)則抽取

目的:找出盡可能多的擁有"is - a"關系的實體對(實體1秦忿,is - a麦射,實體2) 比如我們有一些文章:

" .... apple is a fruit ..... "

" .... fruit such as apple .... "

" .... fruit including apple , banala .... "

拿到上述文章時,我們要先設計一些規(guī)則灯谣,例如:

X is a Y

Y such as X

Y including X

然后通過這些規(guī)則我們可以對上述文章進行關系抽取潜秋,建立以下關系:

方法優(yōu)點

比較準確

對于垂直場景,比較適合(具有針對性)

方法缺點

信息缺乏覆蓋率(low recall rate)

人力成本較高

很難設計(規(guī)則沖突胎许、重疊)



PCNN

下圖清晰了顯示了PCNN的整個網(wǎng)絡架構峻呛,原文鏈接在這里,下面我對著下圖介紹一下PCNN的實現(xiàn)過程:

數(shù)據(jù)預處理:首先對數(shù)據(jù)進行位置編碼辜窑,按句子中各個詞離entity的距離進行編碼钩述。

例如:“As we known,Steve Jobswas the co-founder ofApple Incwhich is a great company in America.”

由于句子中有兩個entity穆碎,所以這條句子就會產(chǎn)生兩個和句子長度相同的編碼牙勘。

pos_1:[-4,-3,-2,-1,0,1,2,3......] ,其中0就是Steve Jobs的位置。

pos_2:[-9,-8,-7,-6,-5,-4,-3,-2,-1,0,1,2,3......] 其中0就是Apple Inc的位置所禀。

切分句子:其中最主要的就是將一條文本數(shù)據(jù)在兩個entity處各切一刀將文本且成了3段方面。

比如 As we known,Steve Jobswas the co-founder ofApple Incwhich is a great company in America北秽,將被切成:

As we known,Steve Jobs

Steve Jobswas the co-founder ofApple Inc

Apple Incwhich is a great company in America.

注意最筒,位置向量也同樣進行了切分操作贺氓。

特征提取:將位置特征和文本特征拼接之后,然后將上面三個數(shù)據(jù)分別通過CNN 提取特征,

關系分類:提取出來的特征通過maxpooling層之后進行拼接后送入softmax層辙培,最終得到relation的分類蔑水。

pcnn.png

從上面PCNN的流程我們可以發(fā)現(xiàn),這個網(wǎng)絡結(jié)構很注重entitiy之間的距離信息扬蕊,位置信息搀别,以及entitiy之間或者左右的信息。其實這些都是是關系抽取中最重要的特征尾抑。

一般來說兩個entitiy之間距離越近歇父,則他們有關系的可能性越大。

而透露出entities之間有關系的詞一般會出現(xiàn)在兩個entity之間再愈,左側(cè)榜苫,或者右側(cè)。

例如:Steve Jobswas the co-founder ofApple Inc翎冲, 關系詞 co-founder就在兩個entity之間

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末垂睬,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子抗悍,更是在濱河造成了極大的恐慌驹饺,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,509評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件缴渊,死亡現(xiàn)場離奇詭異赏壹,居然都是意外死亡,警方通過查閱死者的電腦和手機疟暖,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評論 3 394
  • 文/潘曉璐 我一進店門卡儒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人俐巴,你說我怎么就攤上這事骨望。” “怎么了欣舵?”我有些...
    開封第一講書人閱讀 163,875評論 0 354
  • 文/不壞的土叔 我叫張陵擎鸠,是天一觀的道長。 經(jīng)常有香客問我缘圈,道長劣光,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,441評論 1 293
  • 正文 為了忘掉前任糟把,我火速辦了婚禮绢涡,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘遣疯。我一直安慰自己雄可,他們只是感情好,可當我...
    茶點故事閱讀 67,488評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著数苫,像睡著了一般聪舒。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上虐急,一...
    開封第一講書人閱讀 51,365評論 1 302
  • 那天箱残,我揣著相機與錄音,去河邊找鬼止吁。 笑死被辑,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的赏殃。 我是一名探鬼主播敷待,決...
    沈念sama閱讀 40,190評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼仁热!你這毒婦竟也來了榜揖?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,062評論 0 276
  • 序言:老撾萬榮一對情侶失蹤抗蠢,失蹤者是張志新(化名)和其女友劉穎举哟,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體迅矛,經(jīng)...
    沈念sama閱讀 45,500評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡妨猩,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,706評論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了秽褒。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片壶硅。...
    茶點故事閱讀 39,834評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖销斟,靈堂內(nèi)的尸體忽然破棺而出庐椒,到底是詐尸還是另有隱情,我是刑警寧澤蚂踊,帶...
    沈念sama閱讀 35,559評論 5 345
  • 正文 年R本政府宣布约谈,位于F島的核電站,受9級特大地震影響犁钟,放射性物質(zhì)發(fā)生泄漏棱诱。R本人自食惡果不足惜笼吟,卻給世界環(huán)境...
    茶點故事閱讀 41,167評論 3 328
  • 文/蒙蒙 一戈泼、第九天 我趴在偏房一處隱蔽的房頂上張望莫杈。 院中可真熱鬧狸捕,春花似錦、人聲如沸凤价。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至镰官,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間吗货,已是汗流浹背泳唠。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留宙搬,地道東北人笨腥。 一個月前我還...
    沈念sama閱讀 47,958評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像勇垛,于是被迫代替她去往敵國和親脖母。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,779評論 2 354