NLP第16課:動手實(shí)戰(zhàn)中文句法依存分析

句法分析是自然語言處理(NLP)中的關(guān)鍵技術(shù)之一唧领,其基本任務(wù)是確定句子的句法結(jié)構(gòu)或者句子中詞匯之間的依存關(guān)系登馒。主要包括兩方面的內(nèi)容:一是確定語言的語法體系,即對語言中合法句子的語法結(jié)構(gòu)給予形式化的定義;另一方面是句法分析技術(shù)碟嘴,即根據(jù)給定的語法體系的圆,自動推導(dǎo)出句子的句法結(jié)構(gòu)鼓拧,分析句子所包含的句法單位和這些句法單位之間的關(guān)系。

句法分析被用在很多場景中越妈,比如搜索引擎用戶日志分析和關(guān)鍵詞識別季俩,比如信息抽取、自動問答梅掠、機(jī)器翻譯等其他自然語言處理相關(guān)的任務(wù)酌住。

語法體系

句法分析需要遵循某一語法體系,根據(jù)該體系的語法確定語法樹的表示形式阎抒,我們看下面這個句子:

西門子將努力參與中國的三峽工程建設(shè)酪我。

用可視化的工具 Stanford Parser 來看看句法分析的整個過程:

enter image description here

短語結(jié)構(gòu)樹由終節(jié)點(diǎn)、非終結(jié)點(diǎn)以及短語標(biāo)記三部分組成挠蛉。句子分裂的語法規(guī)則為若干終結(jié)點(diǎn)構(gòu)成一個短語祭示,作為非終結(jié)點(diǎn)參與下一次規(guī)約,直至結(jié)束谴古。如下圖:

enter image description here

句法分析技術(shù)

依存句法分析

依存句法

依存句法(Dependency Parsing质涛, DP)通過分析語言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu)。

直觀來講掰担,依存句法的目的在于分析識別句子中的“主謂賓”汇陆、“定狀補(bǔ)”這些語法成分,并分析各成分之間的關(guān)系带饱。

依存句法的結(jié)構(gòu)沒有非終結(jié)點(diǎn)毡代,詞與詞之間直接發(fā)生依存關(guān)系阅羹,構(gòu)成一個依存對,其中一個是核心詞教寂,也叫支配詞捏鱼,另一個叫修飾詞,也叫從屬詞酪耕。

依存關(guān)系用一個有向弧表示导梆,叫做依存弧。依存弧的方向?yàn)橛蓮膶僭~指向支配詞迂烁,當(dāng)然反過來也是可以的看尼,按個人習(xí)慣統(tǒng)一表示即可。

例如盟步,下面這個句子:

國務(wù)院總理李克強(qiáng)調(diào)研上海外高橋時提出藏斩,支持上海積極探索新機(jī)制。

依存句法的分析結(jié)果見下(利用哈工大 LTP):

enter image description here

從分析結(jié)果中我們可以看到却盘,句子的核心謂詞為“提出”狰域,主語是“李克強(qiáng)”,提出的賓語是“支持上汗日ǎ……”北专,“調(diào)研……時”是“提出”的(時間) 狀語,“李克強(qiáng)”的修飾語是“國務(wù)院總理”旬陡,“支持”的賓語是“探索新機(jī)制”拓颓。

有了上面的依存句法分析結(jié)果,我們就可以比較容易的看到描孟,“提出者”是“李克強(qiáng)”驶睦,而不是“上海”或“外高橋”匿醒,即使它們都是名詞场航,而且距離“提出”更近。

依存關(guān)系

依存句法通過分析語言單位內(nèi)成分之前的依存關(guān)系解釋其句法結(jié)構(gòu)廉羔,主張句子中核心動詞是支配其他成分的中心成分溉痢。而它本身卻不受其他任何成分的支配,所有受支配成分都以某種關(guān)系從屬于支配者憋他。

在20世紀(jì)70年代孩饼,Robinson 提出依存句法中關(guān)于依存關(guān)系的四條公理,在處理中文信息的研究中竹挡,中國學(xué)者提出了依存關(guān)系的第五條公理镀娶,分別如下:

  1. 一個句子中只有一個成分是獨(dú)立的;
  2. 句子的其他成分都從屬于某一成分揪罕;
  3. 任何一個成分都不能依存于兩個或兩個以上的成分梯码;
  4. 如果成分 A 直接從屬成分 B宝泵,而成分 C 在句子中位于 A 和 B 之間,那么轩娶,成分 C 或者從屬于 A儿奶,或者從屬于 B,或者從屬于 A 和 B 之間的某一成分鳄抒;
  5. 中心成分左右兩邊的其他成分相互不發(fā)生關(guān)系廓握。

句子成分之間相互支配與被支配、依存與被依存的現(xiàn)象嘁酿,普遍存在于漢語的詞匯(合成語)、短語男应、單句闹司、段落、篇章等能夠獨(dú)立運(yùn)用和表達(dá)的語言之中沐飘,這一特點(diǎn)體現(xiàn)了依存關(guān)系的普遍性游桩。依存句法分析可以反映出句子各成分之間的語義修飾關(guān)系,它可以獲得長距離的搭配信息耐朴,并與句子成分的物理位置無關(guān)借卧。

依存句法分析標(biāo)注關(guān)系(共14種)及含義如下表所示:

enter image description here

語義依存分析

語義依存分析(Semantic Dependency Parsing, SDP)筛峭,分析句子各個語言單位之間的語義關(guān)聯(lián)铐刘,并將語義關(guān)聯(lián)以依存結(jié)構(gòu)呈現(xiàn)。使用語義依存刻畫句子語義影晓,好處在于不需要去抽象詞匯本身镰吵,而是通過詞匯所承受的語義框架來描述該詞匯,而論元的數(shù)目相對詞匯來說數(shù)量總是少了很多挂签。

語義依存分析目標(biāo)是跨越句子表層句法結(jié)構(gòu)的束縛疤祭,直接獲取深層的語義信息。例如以下三個句子饵婆,用不同的表達(dá)方式表達(dá)了同一個語義信息勺馆,即張三實(shí)施了一個吃的動作,吃的動作是對蘋果實(shí)施的侨核。

enter image description here
enter image description here
enter image description here

語義依存分析不受句法結(jié)構(gòu)的影響草穆,將具有直接語義關(guān)聯(lián)的語言單元直接連接依存弧并標(biāo)記上相應(yīng)的語義關(guān)系。這也是語義依存分析與依存句法分析的重要區(qū)別芹关。

語義依存關(guān)系分為三類续挟,分別是主要語義角色,每一種語義角色對應(yīng)存在一個嵌套關(guān)系和反關(guān)系侥衬;事件關(guān)系诗祸,描述兩個事件間的關(guān)系跑芳;語義依附標(biāo)記,標(biāo)記說話者語氣等依附性信息直颅。

enter image description here

Pyhanlp 實(shí)戰(zhàn)依存句法

最后博个,我們通過 Pyhanlp 庫實(shí)現(xiàn)依存句法的實(shí)戰(zhàn)練習(xí)。這個過程中功偿,我們選用 Dependency Viewer 工具進(jìn)行可視化展示盆佣。可視化時械荷, txt 文檔需要采用 UTF-8 編碼共耍。

首先,引入包吨瞎,然后可直接進(jìn)行分析:

得到的結(jié)果:

enter image description here

然后痹兜,我們將結(jié)果保存在 txt 文件中:

最后,通過 Dependency Viewer 工具進(jìn)行可視化颤诀,如果出現(xiàn)亂碼字旭,記得把 txt 文檔保存為 UTF-8 式即可,得到的可視化結(jié)果如下圖所示:

enter image description here

總結(jié)

本文崖叫,首先為大家介紹了語法體系遗淳,以及如何根據(jù)語法體系確定一個句子的語法樹,為后面的句法分析奠定基礎(chǔ)心傀。

接著屈暗,介紹了依存句法,它的目的是通過分析語言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu)脂男,隨之講解了依存句法中的五大依存關(guān)系恐锦。

最后,進(jìn)一步介紹了區(qū)別于依存句法的語義依存疆液,其目的是分析句子各個語言單位之間的語義關(guān)聯(lián)一铅,并將語義關(guān)聯(lián)以依存結(jié)構(gòu)呈現(xiàn)。

文章結(jié)尾堕油,通過 Pyhanlp 實(shí)戰(zhàn)以及可視化潘飘,帶大家進(jìn)一步加深對中文依存句法的了解诚欠。
參考資料以及推薦閱讀:

  1. 中文依存句法分析概述及應(yīng)用
  2. LTP 依存分析模塊所使用的依存關(guān)系標(biāo)記含義
  3. 依存句法解析
  4. 依存分析:中文依存句法分析簡介
  5. 依存句法分析與語義依存分析的區(qū)別
  6. pyltp:the python extension for LTP
  7. Dependency Viewer
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末锚贱,一起剝皮案震驚了整個濱河市眨补,隨后出現(xiàn)的幾起案子雷绢,更是在濱河造成了極大的恐慌,老刑警劉巖诵原,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件掉盅,死亡現(xiàn)場離奇詭異占婉,居然都是意外死亡搜囱,警方通過查閱死者的電腦和手機(jī)丑瞧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進(jìn)店門柑土,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人绊汹,你說我怎么就攤上這事稽屏。” “怎么了西乖?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵狐榔,是天一觀的道長。 經(jīng)常有香客問我获雕,道長薄腻,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任届案,我火速辦了婚禮被廓,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘萝玷。我一直安慰自己,他們只是感情好昆婿,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布球碉。 她就那樣靜靜地躺著,像睡著了一般仓蛆。 火紅的嫁衣襯著肌膚如雪睁冬。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天看疙,我揣著相機(jī)與錄音豆拨,去河邊找鬼。 笑死能庆,一個胖子當(dāng)著我的面吹牛施禾,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播搁胆,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼弥搞,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了渠旁?” 一聲冷哼從身側(cè)響起攀例,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎顾腊,沒想到半個月后粤铭,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡杂靶,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年梆惯,在試婚紗的時候發(fā)現(xiàn)自己被綠了酱鸭。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡加袋,死狀恐怖凛辣,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情职烧,我是刑警寧澤扁誓,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站蚀之,受9級特大地震影響蝗敢,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜足删,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一寿谴、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧失受,春花似錦讶泰、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至兄旬,卻和暖如春狼犯,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背领铐。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工悯森, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人绪撵。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓瓢姻,卻偏偏與公主長得像,于是被迫代替她去往敵國和親音诈。 傳聞我的和親對象是個殘疾皇子汹来,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容