7 從文章中提取信息

該章三個問題：

1：我們應該怎樣建立一個系統(tǒng)，從非結構化的文章中提取出結構化的數據峡迷。

2：有哪些穩(wěn)健的方法可以識別文章中的實體以及關系银伟？

3：哪些數據庫適合用來做這些工作，我們怎樣用他們訓練并評測我們的模型凉当？

第一節(jié)：提取信息

先將非結構化的數據轉為結構化的數據枣申，然后利用強大的搜索工具如sql對數據進行查詢，這種獲取語義的方法被稱為信息提取看杭。

1.1 信息提取結構

將文本分割為句子，句子分割為單詞挟伙，為單詞標記詞性楼雹。識別有信息量的實體，根據他們的語境確定其關系尖阔。

第二節(jié)：分塊

2.1 名詞短語分塊

用正則表達式構建分塊語法贮缅，再對已經標注詞性的句子進行分塊：

2.2 標記模塊

是一系列pos標記，與正則表達式模塊很相似：

<DT>?<JJ.*>*<NN.*>+

但是還是有許多復雜的表達無法用該模塊提取介却。需要繼續(xù)優(yōu)化谴供。

2.3 用正則表達式分塊，

如以上所示齿坷，建立語法規(guī)則 grammar?

2.4 探索文章語料庫

之前我們學過怎樣用pos標記尋找三詞短語：

用基于正則表達式的分塊器會更加容易一些：

還可以加縫隙桂肌，排除不合適的元素：grammar= r'''NP: {<.*>+} }<VBD|IN>+{? 這樣就排除了動詞以及介詞

Chunks的表達：可以用tags 或者 trees:

IOB-Tags: B: begin, I:inside, O:outsid? ? B-NP:一個名詞短語的開始

第三節(jié)：研發(fā)與測試分塊器

簡單的評估與基準

獲得已經標注好的數據庫的內容

print(conll2000.chunked_sents('train.txt',chunk_types=['NP'])[10])

以此為基礎数焊，訓練n-gram分類器

可以將該一元分類器改為二元分類器，使用BigramChunker

訓練基于分類器的分塊器：與二元相比更加靈活崎场，可以甄別多種可能有用的特征

7.4 語言結構中的遞歸現象

分級別佩耳，多次對句子中的結構進行深度分析分析。不過因為創(chuàng)造這種分級方法谭跨，查找錯誤是比較麻煩的干厚，而且這種方法得確定深度等級，所以對分析復雜的句法并不是很合適螃宙。

--- 樹：句法樹

--- 遍歷樹：可以用遞歸函數來遍歷樹

7.5 識別命名實體

也可以像上面的通過分類器確定分塊器的方法蛮瞄，通過數據訓練，使其能夠識別某些多字符命名實體谆扎。

7.6 提取關系

可以通過正則表達式挂捅，確定兩實體之間的關系如(r'.*\bin\b(?!\b.+ing)' 該表達可以忽略現在分詞ing的表達

用正則表達式可能會得到假陽性答案 false postives

總結：

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市燕酷，隨后出現的幾起案子籍凝，更是在濱河造成了極大的恐慌，老刑警劉巖苗缩，帶你破解...
沈念sama閱讀 216,651評論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件饵蒂，死亡現場離奇詭異，居然都是意外死亡酱讶，警方通過查閱死者的電腦和手機退盯，發(fā)現死者居然都...
沈念sama閱讀 92,468評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來泻肯，“玉大人渊迁，你說我怎么就攤上這事≡钚” “怎么了琉朽？”我有些...
開封第一講書人閱讀 162,931評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長稚铣。經常有香客問我箱叁，道長，這世上最難降的妖魔是什么惕医？我笑而不...
開封第一講書人閱讀 58,218評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任耕漱，我火速辦了婚禮，結果婚禮上抬伺，老公的妹妹穿的比我還像新娘螟够。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 67,234評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布妓笙。她就那樣靜靜地躺著若河，像睡著了一般。火紅的嫁衣襯著肌膚如雪给郊。梳的紋絲不亂的頭發(fā)上牡肉，一...
開封第一講書人閱讀 51,198評論 1贊 299
城市分裂傳說
那天，我揣著相機與錄音淆九，去河邊找鬼统锤。笑死，一個胖子當著我的面吹牛炭庙，可吹牛的內容都是我干的饲窿。我是一名探鬼主播，決...
沈念sama閱讀 40,084評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼焕蹄，長吁一口氣：“原來是場噩夢啊……” “哼逾雄！你這毒婦竟也來了？” 一聲冷哼從身側響起腻脏，我...
開封第一講書人閱讀 38,926評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤鸦泳，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后永品，有當地人在樹林里發(fā)現了一具尸體做鹰，經...
沈念sama閱讀 45,341評論 1贊 311
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,563評論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年鼎姐，在試婚紗的時候發(fā)現自己被綠了钾麸。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,731評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡炕桨，死狀恐怖饭尝，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情献宫，我是刑警寧澤钥平，帶...
沈念sama閱讀 35,430評論 5贊 343
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站姊途，受9級特大地震影響帖池，放射性物質發(fā)生泄漏。R本人自食惡果不足惜吭净，卻給世界環(huán)境...
茶點故事閱讀 41,036評論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望肴甸。院中可真熱鬧寂殉，春花似錦、人聲如沸原在。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,676評論 0贊 22
一樁弒父案彤叉，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至村怪，卻和暖如春秽浇，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背甚负。一陣腳步聲響...
開封第一講書人閱讀 32,829評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工柬焕，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人梭域。一個月前我還...
沈念sama閱讀 47,743評論 2贊 368
代替公主和親
正文我出身青樓斑举，卻偏偏與公主長得像，于是被迫代替她去往敵國和親病涨。傳聞我的和親對象是個殘疾皇子富玷，可洞房花燭夜當晚...
茶點故事閱讀 44,629評論 2贊 354

7 從文章中提取信息

推薦閱讀更多精彩內容