AAAI 2020「自然語言處理(NLP)論文解讀」文本簡化要素分析

來源:AINLPer微信公眾號
編輯: ShuYini
校稿: ShuYini
時間: 2020-2-17

TILE: Discourse Level Factors for Sentence Deletionin Text Simpli?cation.
Contributor : 俄亥俄州立大學(xué)
Paper: https://arxiv.org/abs/1911.10384v1
Code: None

文章摘要

????文本簡化需要對相關(guān)的句子予以刪除,在此背景下职祷,文檔簡化需求中普遍存在但仍處于研究階段彤避。針對此問題絮缅,本文使用一個新的人工標(biāo)注的句子對齊語料庫來檢查與句子刪除相關(guān)的各種文檔以及話語因素校翔。在此過程中發(fā)現(xiàn)專業(yè)編輯人員使用不同的策略來滿足中小學(xué)的可讀性標(biāo)準(zhǔn)。 為了預(yù)測某個句子在簡化過程中是否會被刪除品山,我們利用自動對齊的數(shù)據(jù)來訓(xùn)練一個分類模型肝陪。 根據(jù)我們的手動注釋數(shù)據(jù)進(jìn)行評估,我們的最佳模型在小學(xué)和中學(xué)階段的F1得分分別達(dá)到65.2和59.7晴音。 研究發(fā)現(xiàn)柔纵,話語水平因素有助于預(yù)測簡化句子的難度。

文章背景介紹

????文檔簡化的目的是為了讓更多的觀眾了解文本內(nèi)容中真正意圖锤躁,在其簡化過程中其實涉及多種操作搁料,主要包括:詞法、句法轉(zhuǎn)換、摘要以及難讀內(nèi)容的刪除和解釋郭计。
????最近這幾年關(guān)于文檔簡化的研究也在程爆發(fā)式增長霸琴,但是大部分的研究模式主要還是集中在句子級別上,即如何能夠讓句子更加簡化昭伸。然而卻忽略了文檔級別上簡化梧乘,因為這樣可以刪除句子,這樣可以讓文檔更加簡化庐杨。
????本文的工作旨在促進(jìn)更好地理解文檔級簡化中的句子刪除选调。 因為句子的刪除除了句子中的內(nèi)容外,還部分地由上下文灵份,話語級信息驅(qū)動仁堪。

文章主要內(nèi)容

數(shù)據(jù)準(zhǔn)備及思路

????使用936個新聞文章的Newsela文本簡化語料庫。每個文章集由原始文章的4或5個簡化版本組成填渠,范圍從3至12級(對應(yīng)于8至18歲)弦聂。我們將文章分為三個閱讀級別:原始(1-2年級),初中(6-8年級)和小學(xué)(3-5年級)氛什。我們從每個閱讀級別使用一種版本的文章莺葫,并研究兩種文檔級別的轉(zhuǎn)換:原始→中間和原始→基本。

????我們進(jìn)行分析屉更,學(xué)會預(yù)測當(dāng)將文本簡化為所需的閱讀水平時徙融,專業(yè)編輯人員是否會丟棄一個句子。為了獲得標(biāo)記數(shù)據(jù)進(jìn)行分析和評估瑰谜,我們手動對齊了50個文章集的句子欺冀。生成的數(shù)據(jù)集是用于簡化句子對齊的最大手動注釋數(shù)據(jù)集之一。下圖1顯示了原始文章中的3句段落萨脑,與小學(xué)版本一致隐轩。
????原始文章中不能與較低閱讀水平的任何句子相匹配的句子被認(rèn)為已刪除。為了訓(xùn)練用于句子刪除預(yù)測的模型渤早,我們依靠來自語料庫其余部分的自動對齊句子的嘈雜監(jiān)督职车。
話語等級因素分析(摘要修辭結(jié)構(gòu)RST)

????本文提出了一系列的分析來研究在簡化過程中可能影響句子刪除的話語層次因素,包括文檔特征鹊杖、修辭結(jié)構(gòu)和話語關(guān)系悴灵。

文檔特征

????文檔的長度。 實驗對比發(fā)現(xiàn)文檔越長骂蓖,句子被刪除的比例就越高积瞒。
????文檔的主題。 主題的刪除率各不相同登下∶?祝科學(xué)類文章的刪除率在初中和小學(xué)階段都明顯較低叮喳。關(guān)于金錢和法律的文章的刪除率明顯高于其他文章。

摘要修辭結(jié)構(gòu)理論(RST)

????摘要修辭結(jié)構(gòu)理論(RST)從基本的語篇單元(基本的獨立子句)出發(fā)缰贝,描述了語篇樹中篇章跨度之間的關(guān)系馍悟,RST被認(rèn)為在相關(guān)的應(yīng)用中是有用的。具體RST樹得例子如下圖所示:

????其中剩晴,箭頭代表核(箭頭)和衛(wèi)星(箭頭尾)锣咒。 在原始階段,保留并重述[1]李破,刪除[2]宠哄,保留第三個句子,但將其拆分為兩個[3a]和[3b]作為一個句子嗤攻,[3c]作為另一個句子。
????在本節(jié)中诽俯,我們將重點放在每個句子如何位于原始文檔的第一棵樹中妇菱,因此我們將每個句子視為一個話語單元(不一定是基本的話語單元)。
????話語樹的深度暴区。 被刪除的句子在話語樹中所處的位置明顯低于被保留的句子闯团。由于顯著性句子更傾向于位于語篇樹的根附近,這表明顯著性在決定一個句子是否應(yīng)該被刪除時起著一定的作用仙粱。
????核性房交。 實驗發(fā)現(xiàn),雖然在小學(xué)階段伐割,附屬句往往被刪除候味,但是差異很小。

話語相關(guān)

????內(nèi)部句子相關(guān)性隔心。 觀察到精化關(guān)系是數(shù)據(jù)集中最頻繁的關(guān)系白群; 簡化另一個句子的句子在簡化過程中更可能被刪除(對基本水平而言具有統(tǒng)計學(xué)意義)。 與任何關(guān)系(根)無關(guān)的重要句子在兩個級別上被刪除的可能性均大大降低硬霍。 此外帜慢,用作現(xiàn)有句子解釋的句子在簡化過程中被刪除的可能性較小(對于中學(xué)水平而言唯卖,這一點很明顯)粱玲。如下表所示。


????話語鏈接詞拜轨。 連接詞的位置(句子的開頭和結(jié)尾)是判斷它們之間的關(guān)系是句內(nèi)關(guān)系還是句間關(guān)系的重要指標(biāo)抽减,一般編輯都不樂于把帶有連接詞的句子刪除掉。

實驗結(jié)果

????我們運(yùn)行兩個任務(wù)的實驗撩轰,首先建立一個分類模型胯甩,以了解在簡化到中級和原始級別時是否可以預(yù)測是否應(yīng)刪除句子昧廷。 其次,我們進(jìn)行特征消融偎箫,以確定在嘈雜的監(jiān)督下實踐文件和話語信號是否有幫助木柬。 對于原文中的一個句子,我們(i)預(yù)測它是否會在簡化到初中水平時被刪除淹办,從自動對齊訓(xùn)練到噪聲監(jiān)督;(ii)初級階段的預(yù)測也相同眉枕。我們使用15篇手動對齊的文章作為驗證集,其他35篇文章作為測試集怜森。
????實驗方法:我們使用邏輯回歸(LR)和前饋神經(jīng)網(wǎng)絡(luò)(FNN)作為分類器速挑,并嘗試從多個可能互補(bǔ)的方面進(jìn)行特征測試。為了捕獲句子級語義副硅,我們考慮GloVe詞嵌入的平均值姥宝。稀疏特征(SF)包括句子在整篇文章以及其所在段落中的相對位置。此外恐疲,我們還包括以下句子的可讀性評分腊满。利用我們的語料庫分析(第3節(jié)),我們結(jié)合了文檔級別的功能培己,包括文檔中句子的總數(shù)和單詞數(shù)以及文檔的主題碳蛋。我們的話語功能包括當(dāng)前句子的深度,核的指示符特征以及文檔的支配關(guān)系RST樹中的當(dāng)前句子省咨,是否存在我們分析的四個關(guān)系之一的顯式連接詞以及該連接詞的位置肃弟。我們還使用句子的位置,因為文章后面出現(xiàn)的句子更有可能被刪除零蓉。
為了提高預(yù)測性能笤受,我們采用了一種平滑分類方法,并通過應(yīng)用k個高斯徑向基函數(shù)將每個稀疏特征(二進(jìn)制或數(shù)字的稀疏特征)投影到k維矢量表示中壁公。
????小學(xué)階段簡化句子刪除預(yù)測的效果感论。

表9
????中學(xué)階段簡化句子刪除預(yù)測的效果。
表10
????特征消融分析通過每次刪除一個特征類別來預(yù)測句子的刪除紊册。
表11

結(jié)論:
1比肄、中學(xué)級別的比較難預(yù)測;
2囊陡、FFNN+Gaussian層的模型運(yùn)行結(jié)果比較好芳绩。

往期回顧

入門基礎(chǔ)
「自然語言處理(NLP)」入門系列(一)初識NLP
「自然語言處理(NLP)」入門系列(二)什么才是深度學(xué)習(xí)?
「自然語言處理(NLP)」入門系列(三)單詞表示撞反、損失優(yōu)化妥色、文本標(biāo)記化
「自然語言處理(NLP)」入門系列(四)如何訓(xùn)練word2vec !遏片!

論文閱讀

「自然語言處理(NLP)」【愛丁堡大學(xué)】基于實體模型的數(shù)據(jù)文本生成`诤Α撮竿!
「自然語言處理(NLP)」【Borealis AI】跨域文本連貫生成神經(jīng)網(wǎng)絡(luò)模型!笔呀!
「自然語言處理(NLP)」CTRL:16.3億個參數(shù)的條件轉(zhuǎn)換語言模型
無情幢踏!「自然語言處理(NLP)」統(tǒng)一預(yù)訓(xùn)練UniLM模型(NLU+NLG)

學(xué)術(shù)圈

「自然語言處理(NLP)」你必須要知道的八個國際頂級會議!
「重磅P硎Α房蝉!」深度學(xué)習(xí)十年技術(shù)“進(jìn)化史”
【圣誕福利】ICLR2020開源代碼的paper集合(共計198篇)
收藏!「自然語言處理(NLP)」全球?qū)W術(shù)界”巨佬“信息大盤點(一)微渠!

Attention

更多自然語言處理相關(guān)知識搭幻,還請關(guān)注AINLPer公眾號,極品干貨即刻送達(dá)逞盆。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末檀蹋,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子纳击,更是在濱河造成了極大的恐慌续扔,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,843評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件焕数,死亡現(xiàn)場離奇詭異,居然都是意外死亡刨啸,警方通過查閱死者的電腦和手機(jī)堡赔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,538評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來设联,“玉大人善已,你說我怎么就攤上這事±肜” “怎么了换团?”我有些...
    開封第一講書人閱讀 163,187評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長宫蛆。 經(jīng)常有香客問我艘包,道長,這世上最難降的妖魔是什么耀盗? 我笑而不...
    開封第一講書人閱讀 58,264評論 1 292
  • 正文 為了忘掉前任想虎,我火速辦了婚禮,結(jié)果婚禮上叛拷,老公的妹妹穿的比我還像新娘舌厨。我一直安慰自己,他們只是感情好忿薇,可當(dāng)我...
    茶點故事閱讀 67,289評論 6 390
  • 文/花漫 我一把揭開白布裙椭。 她就那樣靜靜地躺著躏哩,像睡著了一般。 火紅的嫁衣襯著肌膚如雪揉燃。 梳的紋絲不亂的頭發(fā)上扫尺,一...
    開封第一講書人閱讀 51,231評論 1 299
  • 那天,我揣著相機(jī)與錄音你雌,去河邊找鬼器联。 笑死,一個胖子當(dāng)著我的面吹牛婿崭,可吹牛的內(nèi)容都是我干的拨拓。 我是一名探鬼主播,決...
    沈念sama閱讀 40,116評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼氓栈,長吁一口氣:“原來是場噩夢啊……” “哼渣磷!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起授瘦,我...
    開封第一講書人閱讀 38,945評論 0 275
  • 序言:老撾萬榮一對情侶失蹤醋界,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后提完,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體形纺,經(jīng)...
    沈念sama閱讀 45,367評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,581評論 2 333
  • 正文 我和宋清朗相戀三年徒欣,在試婚紗的時候發(fā)現(xiàn)自己被綠了逐样。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,754評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡打肝,死狀恐怖脂新,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情粗梭,我是刑警寧澤争便,帶...
    沈念sama閱讀 35,458評論 5 344
  • 正文 年R本政府宣布,位于F島的核電站断医,受9級特大地震影響滞乙,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜孩锡,卻給世界環(huán)境...
    茶點故事閱讀 41,068評論 3 327
  • 文/蒙蒙 一酷宵、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧躬窜,春花似錦浇垦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,692評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽朴摊。三九已至,卻和暖如春此虑,著一層夾襖步出監(jiān)牢的瞬間甚纲,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,842評論 1 269
  • 我被黑心中介騙來泰國打工朦前, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留介杆,地道東北人。 一個月前我還...
    沈念sama閱讀 47,797評論 2 369
  • 正文 我出身青樓韭寸,卻偏偏與公主長得像春哨,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子恩伺,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,654評論 2 354

推薦閱讀更多精彩內(nèi)容