信息抽确褪健(IE)工具總結(jié)

信息抽茸屡怼(information extraction)
  • 是從自然語言文本中抽取出特定的事件或事實信息总寒,幫助我們將海量內(nèi)容自動分類、提取和重構(gòu)理肺。這些信息通常包括實體(entity)摄闸、關(guān)系(relation)、事件(event)妹萨。例如從新聞中抽取時間年枕、地點、關(guān)鍵人物乎完。
開放信息抽妊帧(open IE)
  • 是指從純文本中提取結(jié)構(gòu)化關(guān)系三元組,例如(Mark Zuckerberg; founded; Facebook)树姨。與其他信息提取的核心區(qū)別在于摩桶,這些關(guān)系的模式不需要事先指定; 通常,關(guān)系名稱只是鏈接兩個參數(shù)的文本帽揪。例如硝清,Barack Obama was born in Hawaii 將會創(chuàng)建一個三元組 (Barack Obama; was born in; Hawaii), 對應(yīng)于開放域的關(guān)系為 was-born-in(Barack-Obama, Hawaii)。
下面做一個信息抽取工具及相關(guān)資料的總結(jié)
一台丛、Stanford CoreNLP
  • 基本思想:Stanford CoreNLP提供了一套人類語言技術(shù)工具耍缴。
    它可以給出單詞的基本形式,它們的詞性挽霉,它們是公司名稱,人物等等变汪,標(biāo)準(zhǔn)化日期侠坎,時間和數(shù)字量,用短語和句法依賴關(guān)系標(biāo)記句子結(jié)構(gòu)裙盾,指示其中名詞短語指的是相同的實體实胸,表示情感他嫡,提取實體提及之間的特定或開放式關(guān)系。
  • 相關(guān)論文:The Stanford CoreNLP Natural Language Processing Toolkit
二庐完、Stanford OpenIE
  • 基本思想:利用語言結(jié)構(gòu)進(jìn)行開放域信息提取钢属。
    系統(tǒng)首先將每個句子分成一組必要條款。然后最大限度地縮短每個子句门躯,產(chǎn)生一組較短的句子片段淆党。然后將這些片段分段為OpenIE三元組,并由系統(tǒng)輸出讶凉。
  • 相關(guān)論文:A Survey on Open Information Extraction
  • 注:斯坦福OpenIE是一部分斯坦福CoreNLP
三染乌、Deepdive
  • Deepdive是由斯坦福大學(xué)InfoLab實驗室開發(fā)的一個開源知識抽取系統(tǒng)。它通過弱監(jiān)督學(xué)習(xí)懂讯,從非結(jié)構(gòu)化的文本中抽取結(jié)構(gòu)化的關(guān)系數(shù)據(jù) 荷憋。
  • 學(xué)習(xí)教程地址:http://deepdive.stanford.edu/quickstart
四、MinIE
五褐望、ClausIE
六勒庄、ReVerb
  • ReVerb是一個自動識別和提取英語句子中的二元關(guān)系的程序。ReVerb專為Web規(guī)模信息提取而設(shè)計瘫里。
  • 代碼地址:https://github.com/knowitall/reverb
七实蔽、Ollie
八盐须、IEPY
九漆腌、Stanford-OpenIE-Python
以上是目前收集到的信息抽取工具的整理贼邓,后續(xù)有新的會繼續(xù)補(bǔ)充
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市闷尿,隨后出現(xiàn)的幾起案子塑径,更是在濱河造成了極大的恐慌,老刑警劉巖填具,帶你破解...
    沈念sama閱讀 212,599評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件统舀,死亡現(xiàn)場離奇詭異,居然都是意外死亡劳景,警方通過查閱死者的電腦和手機(jī)誉简,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,629評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來盟广,“玉大人闷串,你說我怎么就攤上這事〗盍浚” “怎么了烹吵?”我有些...
    開封第一講書人閱讀 158,084評論 0 348
  • 文/不壞的土叔 我叫張陵碉熄,是天一觀的道長。 經(jīng)常有香客問我肋拔,道長锈津,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,708評論 1 284
  • 正文 為了忘掉前任凉蜂,我火速辦了婚禮琼梆,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘跃惫。我一直安慰自己叮叹,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,813評論 6 386
  • 文/花漫 我一把揭開白布爆存。 她就那樣靜靜地躺著蛉顽,像睡著了一般。 火紅的嫁衣襯著肌膚如雪先较。 梳的紋絲不亂的頭發(fā)上携冤,一...
    開封第一講書人閱讀 50,021評論 1 291
  • 那天,我揣著相機(jī)與錄音闲勺,去河邊找鬼曾棕。 笑死,一個胖子當(dāng)著我的面吹牛菜循,可吹牛的內(nèi)容都是我干的翘地。 我是一名探鬼主播,決...
    沈念sama閱讀 39,120評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼癌幕,長吁一口氣:“原來是場噩夢啊……” “哼衙耕!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起勺远,我...
    開封第一講書人閱讀 37,866評論 0 268
  • 序言:老撾萬榮一對情侶失蹤橙喘,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后胶逢,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體厅瞎,經(jīng)...
    沈念sama閱讀 44,308評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,633評論 2 327
  • 正文 我和宋清朗相戀三年初坠,在試婚紗的時候發(fā)現(xiàn)自己被綠了和簸。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,768評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡碟刺,死狀恐怖比搭,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情南誊,我是刑警寧澤身诺,帶...
    沈念sama閱讀 34,461評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站抄囚,受9級特大地震影響霉赡,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜幔托,卻給世界環(huán)境...
    茶點故事閱讀 40,094評論 3 317
  • 文/蒙蒙 一穴亏、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧重挑,春花似錦嗓化、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,850評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至史煎,卻和暖如春谦屑,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背篇梭。 一陣腳步聲響...
    開封第一講書人閱讀 32,082評論 1 267
  • 我被黑心中介騙來泰國打工氢橙, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人恬偷。 一個月前我還...
    沈念sama閱讀 46,571評論 2 362
  • 正文 我出身青樓悍手,卻偏偏與公主長得像,于是被迫代替她去往敵國和親袍患。 傳聞我的和親對象是個殘疾皇子坦康,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,666評論 2 350