來源:AINLPer微信公眾號
編輯: ShuYini
校稿: ShuYini
時間: 2020-2-17
TILE: Discourse Level Factors for Sentence Deletionin Text Simpli?cation.
Contributor : 俄亥俄州立大學(xué)
Paper: https://arxiv.org/abs/1911.10384v1
Code: None
文章摘要
????文本簡化需要對相關(guān)的句子予以刪除,在此背景下职祷,文檔簡化需求中普遍存在但仍處于研究階段彤避。針對此問題絮缅,本文使用一個新的人工標(biāo)注的句子對齊語料庫來檢查與句子刪除相關(guān)的各種文檔以及話語因素校翔。在此過程中發(fā)現(xiàn)專業(yè)編輯人員使用不同的策略來滿足中小學(xué)的可讀性標(biāo)準(zhǔn)。 為了預(yù)測某個句子在簡化過程中是否會被刪除品山,我們利用自動對齊的數(shù)據(jù)來訓(xùn)練一個分類模型肝陪。 根據(jù)我們的手動注釋數(shù)據(jù)進(jìn)行評估,我們的最佳模型在小學(xué)和中學(xué)階段的F1得分分別達(dá)到65.2和59.7晴音。 研究發(fā)現(xiàn)柔纵,話語水平因素有助于預(yù)測簡化句子的難度。
文章背景介紹
????文檔簡化的目的是為了讓更多的觀眾了解文本內(nèi)容中真正意圖锤躁,在其簡化過程中其實涉及多種操作搁料,主要包括:詞法、句法轉(zhuǎn)換、摘要以及難讀內(nèi)容的刪除和解釋郭计。
????最近這幾年關(guān)于文檔簡化的研究也在程爆發(fā)式增長霸琴,但是大部分的研究模式主要還是集中在句子級別上,即如何能夠讓句子更加簡化昭伸。然而卻忽略了文檔級別上簡化梧乘,因為這樣可以刪除句子,這樣可以讓文檔更加簡化庐杨。
????本文的工作旨在促進(jìn)更好地理解文檔級簡化中的句子刪除选调。 因為句子的刪除除了句子中的內(nèi)容外,還部分地由上下文灵份,話語級信息驅(qū)動仁堪。
文章主要內(nèi)容
數(shù)據(jù)準(zhǔn)備及思路
????使用936個新聞文章的Newsela文本簡化語料庫。每個文章集由原始文章的4或5個簡化版本組成填渠,范圍從3至12級(對應(yīng)于8至18歲)弦聂。我們將文章分為三個閱讀級別:原始(1-2年級),初中(6-8年級)和小學(xué)(3-5年級)氛什。我們從每個閱讀級別使用一種版本的文章莺葫,并研究兩種文檔級別的轉(zhuǎn)換:原始→中間和原始→基本。
話語等級因素分析(摘要修辭結(jié)構(gòu)RST)
????本文提出了一系列的分析來研究在簡化過程中可能影響句子刪除的話語層次因素,包括文檔特征鹊杖、修辭結(jié)構(gòu)和話語關(guān)系悴灵。
文檔特征
????文檔的長度。 實驗對比發(fā)現(xiàn)文檔越長骂蓖,句子被刪除的比例就越高积瞒。
????文檔的主題。 主題的刪除率各不相同登下∶?祝科學(xué)類文章的刪除率在初中和小學(xué)階段都明顯較低叮喳。關(guān)于金錢和法律的文章的刪除率明顯高于其他文章。
摘要修辭結(jié)構(gòu)理論(RST)
????摘要修辭結(jié)構(gòu)理論(RST)從基本的語篇單元(基本的獨立子句)出發(fā)缰贝,描述了語篇樹中篇章跨度之間的關(guān)系馍悟,RST被認(rèn)為在相關(guān)的應(yīng)用中是有用的。具體RST樹得例子如下圖所示:
????在本節(jié)中诽俯,我們將重點放在每個句子如何位于原始文檔的第一棵樹中妇菱,因此我們將每個句子視為一個話語單元(不一定是基本的話語單元)。
????話語樹的深度暴区。 被刪除的句子在話語樹中所處的位置明顯低于被保留的句子闯团。由于顯著性句子更傾向于位于語篇樹的根附近,這表明顯著性在決定一個句子是否應(yīng)該被刪除時起著一定的作用仙粱。
????核性房交。 實驗發(fā)現(xiàn),雖然在小學(xué)階段伐割,附屬句往往被刪除候味,但是差異很小。
話語相關(guān)
????內(nèi)部句子相關(guān)性隔心。 觀察到精化關(guān)系是數(shù)據(jù)集中最頻繁的關(guān)系白群; 簡化另一個句子的句子在簡化過程中更可能被刪除(對基本水平而言具有統(tǒng)計學(xué)意義)。 與任何關(guān)系(根)無關(guān)的重要句子在兩個級別上被刪除的可能性均大大降低硬霍。 此外帜慢,用作現(xiàn)有句子解釋的句子在簡化過程中被刪除的可能性較小(對于中學(xué)水平而言唯卖,這一點很明顯)粱玲。如下表所示。
????話語鏈接詞拜轨。 連接詞的位置(句子的開頭和結(jié)尾)是判斷它們之間的關(guān)系是句內(nèi)關(guān)系還是句間關(guān)系的重要指標(biāo)抽减,一般編輯都不樂于把帶有連接詞的句子刪除掉。
實驗結(jié)果
????我們運(yùn)行兩個任務(wù)的實驗撩轰,首先建立一個分類模型胯甩,以了解在簡化到中級和原始級別時是否可以預(yù)測是否應(yīng)刪除句子昧廷。 其次,我們進(jìn)行特征消融偎箫,以確定在嘈雜的監(jiān)督下實踐文件和話語信號是否有幫助木柬。 對于原文中的一個句子,我們(i)預(yù)測它是否會在簡化到初中水平時被刪除淹办,從自動對齊訓(xùn)練到噪聲監(jiān)督;(ii)初級階段的預(yù)測也相同眉枕。我們使用15篇手動對齊的文章作為驗證集,其他35篇文章作為測試集怜森。
????實驗方法:我們使用邏輯回歸(LR)和前饋神經(jīng)網(wǎng)絡(luò)(FNN)作為分類器速挑,并嘗試從多個可能互補(bǔ)的方面進(jìn)行特征測試。為了捕獲句子級語義副硅,我們考慮GloVe詞嵌入的平均值姥宝。稀疏特征(SF)包括句子在整篇文章以及其所在段落中的相對位置。此外恐疲,我們還包括以下句子的可讀性評分腊满。利用我們的語料庫分析(第3節(jié)),我們結(jié)合了文檔級別的功能培己,包括文檔中句子的總數(shù)和單詞數(shù)以及文檔的主題碳蛋。我們的話語功能包括當(dāng)前句子的深度,核的指示符特征以及文檔的支配關(guān)系RST樹中的當(dāng)前句子省咨,是否存在我們分析的四個關(guān)系之一的顯式連接詞以及該連接詞的位置肃弟。我們還使用句子的位置,因為文章后面出現(xiàn)的句子更有可能被刪除零蓉。
為了提高預(yù)測性能笤受,我們采用了一種平滑分類方法,并通過應(yīng)用k個高斯徑向基函數(shù)將每個稀疏特征(二進(jìn)制或數(shù)字的稀疏特征)投影到k維矢量表示中壁公。
????小學(xué)階段簡化句子刪除預(yù)測的效果感论。
結(jié)論:
1比肄、中學(xué)級別的比較難預(yù)測;
2囊陡、FFNN+Gaussian層的模型運(yùn)行結(jié)果比較好芳绩。
往期回顧
入門基礎(chǔ)
「自然語言處理(NLP)」入門系列(一)初識NLP
「自然語言處理(NLP)」入門系列(二)什么才是深度學(xué)習(xí)?
「自然語言處理(NLP)」入門系列(三)單詞表示撞反、損失優(yōu)化妥色、文本標(biāo)記化
「自然語言處理(NLP)」入門系列(四)如何訓(xùn)練word2vec !遏片!
論文閱讀
「自然語言處理(NLP)」【愛丁堡大學(xué)】基于實體模型的數(shù)據(jù)文本生成`诤Α撮竿!
「自然語言處理(NLP)」【Borealis AI】跨域文本連貫生成神經(jīng)網(wǎng)絡(luò)模型!笔呀!
「自然語言處理(NLP)」CTRL:16.3億個參數(shù)的條件轉(zhuǎn)換語言模型
無情幢踏!「自然語言處理(NLP)」統(tǒng)一預(yù)訓(xùn)練UniLM模型(NLU+NLG)
學(xué)術(shù)圈
「自然語言處理(NLP)」你必須要知道的八個國際頂級會議!
「重磅P硎Α房蝉!」深度學(xué)習(xí)十年技術(shù)“進(jìn)化史”
【圣誕福利】ICLR2020開源代碼的paper集合(共計198篇)
收藏!「自然語言處理(NLP)」全球?qū)W術(shù)界”巨佬“信息大盤點(一)微渠!
Attention
更多自然語言處理相關(guān)知識搭幻,還請關(guān)注AINLPer公眾號,極品干貨即刻送達(dá)逞盆。