-
做的任務是句子壓縮。
-
方法也和其他無監(jiān)督方法一樣就是構建重建損失哺窄。
-
對于要壓縮的長度萌业,作者的方法是用了帶個超參生年,然后在超參間均勻采樣抱婉,使用
5
保底授段,但是壓縮的長度并不是直接截斷而是超過壓縮的長度的話有一個length
的penalty
番甩。
-
幾個
loss
比較有意思,首先作者在題目中說了是可微的宴胧,但是生成句子的時候有一個可讀的句子采樣的時候是不可微的表锻,因此作者的放發(fā)就是采樣的時候使用正常的采樣瞬逊,反向傳播的時候使用gamble-max tricks
或者是soft-argmax
,這個方法還有一個術語叫straight-through estimator
范删,前向傳播的時候不使用這兩個技巧是因為到旦,這兩種方法產生的都是embedding
的mixture
巨缘,利用了全局的信息带猴,而且后面的時候還需要使用language model
所以必須要是可以讀懂的句子拴清。
-
本文最大的創(chuàng)新點就是兩個
loss
用的十分精妙口予,LM Prior Loss
和Topic Loss
沪停,前者是生成詞的時候計算和lm
的kl
散度,不直接使用一個language model初始化而是直接計算交叉熵相當于對language model
進行了知識蒸餾众辨,這樣允許我們使用更大預訓練好的language model
鹃彻,但是還有一個問題是language model
生成出來的句子一般是最大似然的句子蛛株,因此作者引入了一個基于tf-idf
的topic loss
谨履,讓topic
聯(lián)系的更加緊密熬丧,因此和lm
損失形成了一個trade-off
,理想情況下就是生成既通順又符合主題的句子唆香。
-
topic loss
竟然是關鍵,因為topic loss起到的是一個引導程序的做陰冯吓,其他的loss
在前期可能都因為smaple
的效果太差了疮跑,所以找不到優(yōu)化的方向祖娘,但是topic loss
有引導作用渐苏,引導采樣到一個很小范圍內的單詞
-
此外作者發(fā)現(xiàn)了一個很有意思的現(xiàn)象是seq3總是會傾向于復制源文章中前面幾個單詞仪吧,作者解釋可能的原因是因為重建是自回歸的鞠眉,所有的后面單詞的生成都要銀行仰仗前面單詞的生成械蹋,因此前面單詞生成的對錯至關重要哗戈,因此
compressor
更加傾向于直接復制前面的幾個單詞谱醇,這樣reconstruer
步做,所以這也印證了生成的時候第一個單詞的生成總是最為重要的全度,他決定了從哪一個流行的附近開始生成接下來的單詞。
-
問題:因為有重建損失所以差不多是大段落復制原始的文本佑颇。
-
感覺這個文章其實最大的貢獻點是提出了
topic loss
這么一個東西挑胸,給embedding
根據(jù)topic loss
加上attention
宰闰,引導在sample
中單詞的選擇移袍,不加直接就爆跌了葡盗,反而language model
沒有很大的作用觅够。
MeanSum : A Neural Model for Unsupervised Multi-Document Abstractive Summarization
上一篇是
naacl19
的這一篇是icml19
的喘先,感覺方法很類似苹祟,naacl
給我的實驗上的啟發(fā)多一點树枫,這個做了很多的實驗分析(沒有理論分析也能中icml
)-
兩個都是做摘要的,不同的一點是上一篇是做單文檔摘要的奔誓,這個是做多文檔摘要的厨喂,這個主要用于比如說亞馬遜上有很多商品的評價有好評有差評蜕煌,然后將所有的好評和差評總結成一個摘要斜纪,這個樣子。放一個例子腺劣,可以看到作者生成摘要的長度差不多是一個文本的長度因此沒有必要做
length penalty
橘原。 作者在
contribution
中argue
的一點是強調自己與無監(jiān)督機器翻譯最大的不同是只有輸入的需要總結的句子,連輸出的語料都沒有歼冰。-
最主要的模型的圖耻警。需要注意的一點是里面的encoder和encoder共享參數(shù)隔嫡,
decoder
和decoder
共享參數(shù),從直覺上來說甘穿,autoencoderReconstructionLoss
強迫訓練出一個比較好的encoder
和decoder
腮恩,然后后面的encoder
和decoder
也能受益 -
損失函數(shù),就是一個重建損失和一個語義相似的損失温兼,作者說了自己嘗試過更換不同loss的比例但是效果不變秸滴。所以說基本上加了loss的都擬合了,并沒有
trade-off
的情況
本文的亮點是ablation study
做的很好募判。
-
首先是使用
language model
初始化encoder
和decoder
重要嗎?不是很重要届垫,只是有輕微的下降释液,也就是說模型可以找到優(yōu)化的方向,如果僅僅只用一個language model
做摘要装处,也就是作者文中說到的no-training
的方法相關度和情感一致性都很蹦误债。
-
有兩個模型是完全崩了,一個是不使用
auto-encoder
妄迁,因為只要兩個encoder
學習到不管輸入是什么東西統(tǒng)統(tǒng)輸出一樣的東西寝蹈,那么相似度是最小的,因此學不到有用的東西登淘,個人感覺還是監(jiān)督信號太弱了箫老,只用一個similarity
當監(jiān)督信號無法訓練好一個encoder
和decoder
,還有一個模型是如果decoder
的參數(shù)不共享那么不能映射到同一個語言空間形帮,因此也崩了槽惫,decoder
的參數(shù)不共享summary
端訓練不好,用gumbel softmax
采樣不好辩撑,反而相當于dropout
界斜,因此可以將encoder
訓練的很好,重建端的decoder
訓練的也很好合冀,但是真實在測試的時候summary decoder
端還是訓練的不充分各薇。
-
reconstruction
模型雖然能夠work
但是效果很差,作者認為是學習的難度太大了君躺,盡管有Gumbel softmax
但是梯度還是bias
很大或者方差依賴于溫度(盡管可以是退火的)峭判,因為只有一個損失函數(shù)就是gumbel softmax
因此很難優(yōu)化,而且作者認為從一個平均的向量中重建出來所有的文檔棕叫,這個任務本身就很難林螃。
- 此時
decoder
不是訓練的一部分了因此生成的句子很不流暢。
-
encoder
不共享的時候效果是不變的俺泣,但是為了減少參數(shù)作者還是共享了參數(shù)疗认,所以說decoder
不共享會蹦,但是encoder
不共享卻沒事伏钠。
- 各自的
ppl