7 從文章中提取信息

該章三個問題:

1:我們應該怎樣建立一個系統(tǒng),從非結構化的文章中提取出結構化的數據峡迷。

2:有哪些穩(wěn)健的方法可以識別文章中的實體以及關系银伟?

3: 哪些數據庫適合用來做這些工作,我們怎樣用他們訓練并評測我們的模型凉当?

第一節(jié):提取信息

先將非結構化的數據轉為結構化的數據枣申,然后利用強大的搜索工具如sql對數據進行查詢,這種獲取語義的方法被稱為信息提取看杭。

1.1 信息提取結構

將文本分割為句子,句子分割為單詞挟伙,為單詞標記詞性楼雹。識別有信息量的實體,根據他們的語境確定其關系尖阔。

第二節(jié):分塊

2.1 名詞短語分塊

用正則表達式構建分塊語法贮缅,再對已經標注詞性的句子進行分塊:


2.2 標記模塊

是一系列pos標記,與正則表達式模塊很相似:

<DT>?<JJ.*>*<NN.*>+

但是還是有許多復雜的表達無法用該模塊提取介却。需要繼續(xù)優(yōu)化谴供。

2.3 用正則表達式分塊,

如以上所示齿坷,建立語法規(guī)則 grammar?

2.4 探索文章語料庫

之前我們學過怎樣用pos標記尋找三詞短語:


用基于正則表達式的分塊器會更加容易一些:


還可以加縫隙桂肌,排除不合適的元素:grammar= r'''NP: {<.*>+} }<VBD|IN>+{? 這樣就排除了動詞以及介詞

Chunks的表達:可以用tags 或者 trees:

IOB-Tags: B: begin, I:inside, O:outsid? ? B-NP:一個名詞短語的開始

第三節(jié):研發(fā)與測試分塊器

簡單的評估與基準

獲得已經標注好的數據庫的內容

print(conll2000.chunked_sents('train.txt',chunk_types=['NP'])[10])

以此為基礎数焊,訓練n-gram分類器


可以將該一元分類器改為二元分類器,使用BigramChunker

訓練基于分類器的分塊器:與二元相比更加靈活崎场,可以甄別多種可能有用的特征


7.4 語言結構中的遞歸現象

分級別佩耳,多次對句子中的結構進行深度分析分析。不過因為創(chuàng)造這種分級方法谭跨,查找錯誤是比較麻煩的干厚,而且這種方法得確定深度等級,所以對分析復雜的句法并不是很合適螃宙。

--- 樹:句法樹

--- 遍歷樹:可以用遞歸函數來遍歷樹

7.5 識別命名實體

也可以像上面的通過分類器確定分塊器的方法蛮瞄,通過數據訓練,使其能夠識別某些多字符命名實體谆扎。

7.6 提取關系

可以通過正則表達式挂捅,確定兩實體之間的關系如(r'.*\bin\b(?!\b.+ing)' 該表達可以忽略現在分詞ing的表達

用正則表達式可能會得到假陽性答案 false postives

總結:

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市燕酷,隨后出現的幾起案子籍凝,更是在濱河造成了極大的恐慌,老刑警劉巖苗缩,帶你破解...
    沈念sama閱讀 216,651評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件饵蒂,死亡現場離奇詭異,居然都是意外死亡酱讶,警方通過查閱死者的電腦和手機退盯,發(fā)現死者居然都...
    沈念sama閱讀 92,468評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來泻肯,“玉大人渊迁,你說我怎么就攤上這事≡钚” “怎么了琉朽?”我有些...
    開封第一講書人閱讀 162,931評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長稚铣。 經常有香客問我箱叁,道長,這世上最難降的妖魔是什么惕医? 我笑而不...
    開封第一講書人閱讀 58,218評論 1 292
  • 正文 為了忘掉前任耕漱,我火速辦了婚禮,結果婚禮上抬伺,老公的妹妹穿的比我還像新娘螟够。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 67,234評論 6 388
  • 文/花漫 我一把揭開白布妓笙。 她就那樣靜靜地躺著若河,像睡著了一般。 火紅的嫁衣襯著肌膚如雪给郊。 梳的紋絲不亂的頭發(fā)上牡肉,一...
    開封第一講書人閱讀 51,198評論 1 299
  • 那天,我揣著相機與錄音淆九,去河邊找鬼统锤。 笑死,一個胖子當著我的面吹牛炭庙,可吹牛的內容都是我干的饲窿。 我是一名探鬼主播,決...
    沈念sama閱讀 40,084評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼焕蹄,長吁一口氣:“原來是場噩夢啊……” “哼逾雄!你這毒婦竟也來了?” 一聲冷哼從身側響起腻脏,我...
    開封第一講書人閱讀 38,926評論 0 274
  • 序言:老撾萬榮一對情侶失蹤鸦泳,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后永品,有當地人在樹林里發(fā)現了一具尸體做鹰,經...
    沈念sama閱讀 45,341評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,563評論 2 333
  • 正文 我和宋清朗相戀三年鼎姐,在試婚紗的時候發(fā)現自己被綠了钾麸。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,731評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡炕桨,死狀恐怖饭尝,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情献宫,我是刑警寧澤钥平,帶...
    沈念sama閱讀 35,430評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站姊途,受9級特大地震影響帖池,放射性物質發(fā)生泄漏。R本人自食惡果不足惜吭净,卻給世界環(huán)境...
    茶點故事閱讀 41,036評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望肴甸。 院中可真熱鬧寂殉,春花似錦、人聲如沸原在。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至村怪,卻和暖如春秽浇,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背甚负。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評論 1 269
  • 我被黑心中介騙來泰國打工柬焕, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人梭域。 一個月前我還...
    沈念sama閱讀 47,743評論 2 368
  • 正文 我出身青樓斑举,卻偏偏與公主長得像,于是被迫代替她去往敵國和親病涨。 傳聞我的和親對象是個殘疾皇子富玷,可洞房花燭夜當晚...
    茶點故事閱讀 44,629評論 2 354

推薦閱讀更多精彩內容