信息抽茸屡怼(information extraction)
- 是從自然語言文本中抽取出特定的事件或事實信息总寒,幫助我們將海量內(nèi)容自動分類、提取和重構(gòu)理肺。這些信息通常包括實體(entity)摄闸、關(guān)系(relation)、事件(event)妹萨。例如從新聞中抽取時間年枕、地點、關(guān)鍵人物乎完。
開放信息抽妊帧(open IE)
- 是指從純文本中提取結(jié)構(gòu)化關(guān)系三元組,例如(Mark Zuckerberg; founded; Facebook)树姨。與其他信息提取的核心區(qū)別在于摩桶,這些關(guān)系的模式不需要事先指定; 通常,關(guān)系名稱只是鏈接兩個參數(shù)的文本帽揪。例如硝清,Barack Obama was born in Hawaii 將會創(chuàng)建一個三元組 (Barack Obama; was born in; Hawaii), 對應(yīng)于開放域的關(guān)系為 was-born-in(Barack-Obama, Hawaii)。
下面做一個信息抽取工具及相關(guān)資料的總結(jié)
一台丛、Stanford CoreNLP
- 基本思想:Stanford CoreNLP提供了一套人類語言技術(shù)工具耍缴。
它可以給出單詞的基本形式,它們的詞性挽霉,它們是公司名稱,人物等等变汪,標(biāo)準(zhǔn)化日期侠坎,時間和數(shù)字量,用短語和句法依賴關(guān)系標(biāo)記句子結(jié)構(gòu)裙盾,指示其中名詞短語指的是相同的實體实胸,表示情感他嫡,提取實體提及之間的特定或開放式關(guān)系。 - 相關(guān)論文:The Stanford CoreNLP Natural Language Processing Toolkit
二庐完、Stanford OpenIE
- 基本思想:利用語言結(jié)構(gòu)進(jìn)行開放域信息提取钢属。
系統(tǒng)首先將每個句子分成一組必要條款。然后最大限度地縮短每個子句门躯,產(chǎn)生一組較短的句子片段淆党。然后將這些片段分段為OpenIE三元組,并由系統(tǒng)輸出讶凉。 - 相關(guān)論文:A Survey on Open Information Extraction
- 注:斯坦福OpenIE是一部分斯坦福CoreNLP
三染乌、Deepdive
- Deepdive是由斯坦福大學(xué)InfoLab實驗室開發(fā)的一個開源知識抽取系統(tǒng)。它通過弱監(jiān)督學(xué)習(xí)懂讯,從非結(jié)構(gòu)化的文本中抽取結(jié)構(gòu)化的關(guān)系數(shù)據(jù) 荷憋。
- 學(xué)習(xí)教程地址:http://deepdive.stanford.edu/quickstart
四、MinIE
五褐望、ClausIE
六勒庄、ReVerb
- ReVerb是一個自動識別和提取英語句子中的二元關(guān)系的程序。ReVerb專為Web規(guī)模信息提取而設(shè)計瘫里。
- 代碼地址:https://github.com/knowitall/reverb
七实蔽、Ollie
- Ollie是一種自動識別和提取英語句子中的二元關(guān)系的軟件。Ollie專為信息提取而設(shè)計减宣。
- 代碼地址:https://github.com/knowitall/ollie
- 相關(guān)論文:Open Language Learning for Information Extraction
八盐须、IEPY
- IEPY是一個 專注于關(guān)系提取的信息提取的開源工具 。
- 代碼地址:http://github.com/machinalis/iepy
九漆腌、Stanford-OpenIE-Python
- Stanford Open Information Extraction - Python Wrapper
- 學(xué)習(xí)教程地址:https://github.com/philipperemy/Stanford-OpenIE-Python)