seq^3 Differentiable Unsupervised abstractive sentence compression 和 MeanSum : A Neural Model...

做的任務是句子壓縮。
方法也和其他無監(jiān)督方法一樣就是構建重建損失哺窄。
對于要壓縮的長度萌业，作者的方法是用了帶個超參生年，然后在超參間均勻采樣抱婉，使用5保底授段，但是壓縮的長度并不是直接截斷而是超過壓縮的長度的話有一個length的penalty番甩。
幾個loss比較有意思，首先作者在題目中說了是可微的宴胧，但是生成句子的時候有一個可讀的句子采樣的時候是不可微的表锻，因此作者的放發(fā)就是采樣的時候使用正常的采樣瞬逊，反向傳播的時候使用gamble-max tricks或者是soft-argmax，這個方法還有一個術語叫straight-through estimator范删，前向傳播的時候不使用這兩個技巧是因為到旦，這兩種方法產生的都是embedding的mixture巨缘，利用了全局的信息带猴，而且后面的時候還需要使用language model所以必須要是可以讀懂的句子拴清。
本文最大的創(chuàng)新點就是兩個loss用的十分精妙口予，LM Prior Loss和Topic Loss沪停，前者是生成詞的時候計算和lm的kl散度，不直接使用一個language model初始化而是直接計算交叉熵相當于對language model進行了知識蒸餾众辨，這樣允許我們使用更大預訓練好的language model鹃彻，但是還有一個問題是language model生成出來的句子一般是最大似然的句子蛛株，因此作者引入了一個基于tf-idf的 topic loss谨履，讓topic聯(lián)系的更加緊密熬丧，因此和lm損失形成了一個trade-off，理想情況下就是生成既通順又符合主題的句子唆香。
topic loss竟然是關鍵，因為topic loss起到的是一個引導程序的做陰冯吓，其他的loss在前期可能都因為smaple的效果太差了疮跑，所以找不到優(yōu)化的方向祖娘，但是topic loss有引導作用渐苏，引導采樣到一個很小范圍內的單詞
此外作者發(fā)現(xiàn)了一個很有意思的現(xiàn)象是seq3總是會傾向于復制源文章中前面幾個單詞仪吧，作者解釋可能的原因是因為重建是自回歸的鞠眉，所有的后面單詞的生成都要銀行仰仗前面單詞的生成械蹋，因此前面單詞生成的對錯至關重要哗戈，因此compressor更加傾向于直接復制前面的幾個單詞谱醇，這樣reconstruer步做，所以這也印證了生成的時候第一個單詞的生成總是最為重要的全度，他決定了從哪一個流行的附近開始生成接下來的單詞。
問題：因為有重建損失所以差不多是大段落復制原始的文本佑颇。
感覺這個文章其實最大的貢獻點是提出了topic loss這么一個東西挑胸，給embedding根據(jù)topic loss 加上attention宰闰，引導在sample中單詞的選擇移袍，不加直接就爆跌了葡盗，反而language model沒有很大的作用觅够。

MeanSum : A Neural Model for Unsupervised Multi-Document Abstractive Summarization

上一篇是naacl19的這一篇是icml19的喘先，感覺方法很類似苹祟，naacl給我的實驗上的啟發(fā)多一點树枫，這個做了很多的實驗分析（沒有理論分析也能中icml）
兩個都是做摘要的，不同的一點是上一篇是做單文檔摘要的奔誓，這個是做多文檔摘要的厨喂，這個主要用于比如說亞馬遜上有很多商品的評價有好評有差評蜕煌，然后將所有的好評和差評總結成一個摘要斜纪，這個樣子。放一個例子腺劣，可以看到作者生成摘要的長度差不多是一個文本的長度因此沒有必要做length penalty橘原。
作者在contribution中argue的一點是強調自己與無監(jiān)督機器翻譯最大的不同是只有輸入的需要總結的句子，連輸出的語料都沒有歼冰。
最主要的模型的圖耻警。需要注意的一點是里面的encoder和encoder共享參數(shù)隔嫡，decoder和decoder共享參數(shù)，從直覺上來說甘穿，autoencoderReconstructionLoss強迫訓練出一個比較好的encoder和decoder腮恩，然后后面的encoder和decoder也能受益
損失函數(shù)，就是一個重建損失和一個語義相似的損失温兼，作者說了自己嘗試過更換不同loss的比例但是效果不變秸滴。所以說基本上加了loss的都擬合了，并沒有trade-off的情況

本文的亮點是`ablation study`做的很好募判。

首先是使用language model 初始化encoder和decoder重要嗎？不是很重要届垫，只是有輕微的下降释液，也就是說模型可以找到優(yōu)化的方向，如果僅僅只用一個language model做摘要装处，也就是作者文中說到的no-training的方法相關度和情感一致性都很蹦误债。
有兩個模型是完全崩了，一個是不使用auto-encoder妄迁，因為只要兩個encoder學習到不管輸入是什么東西統(tǒng)統(tǒng)輸出一樣的東西寝蹈，那么相似度是最小的，因此學不到有用的東西登淘，個人感覺還是監(jiān)督信號太弱了箫老，只用一個similarity當監(jiān)督信號無法訓練好一個encoder和decoder，還有一個模型是如果decoder的參數(shù)不共享那么不能映射到同一個語言空間形帮，因此也崩了槽惫，decoder的參數(shù)不共享summary端訓練不好，用gumbel softmax采樣不好辩撑，反而相當于dropout界斜，因此可以將encoder訓練的很好，重建端的decoder訓練的也很好合冀，但是真實在測試的時候summary decoder端還是訓練的不充分各薇。

reconstruction 模型雖然能夠work但是效果很差，作者認為是學習的難度太大了君躺，盡管有Gumbel softmax但是梯度還是bias很大或者方差依賴于溫度（盡管可以是退火的)峭判，因為只有一個損失函數(shù)就是gumbel softmax因此很難優(yōu)化，而且作者認為從一個平均的向量中重建出來所有的文檔棕叫，這個任務本身就很難林螃。

此時decoder不是訓練的一部分了因此生成的句子很不流暢。

encoder不共享的時候效果是不變的俺泣，但是為了減少參數(shù)作者還是共享了參數(shù)疗认，所以說decoder不共享會蹦，但是encoder不共享卻沒事伏钠。
各自的ppl

最后編輯于：2019.06.13 17:36:49

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末横漏，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子熟掂，更是在濱河造成了極大的恐慌缎浇，老刑警劉巖，帶你破解...
沈念sama閱讀 222,252評論 6贊 516
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件赴肚，死亡現(xiàn)場離奇詭異素跺，居然都是意外死亡，警方通過查閱死者的電腦和手機誉券，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,886評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門亡笑，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人横朋，你說我怎么就攤上這事仑乌。” “怎么了琴锭？”我有些...
開封第一講書人閱讀 168,814評論 0贊 361
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵晰甚，是天一觀的道長。經常有香客問我决帖，道長厕九，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 59,869評論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任地回，我火速辦了婚禮扁远，結果婚禮上俊鱼，老公的妹妹穿的比我還像新娘。我一直安慰自己畅买，他們只是感情好并闲，可當我...
茶點故事閱讀 68,888評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著谷羞，像睡著了一般帝火。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上湃缎，一...
開封第一講書人閱讀 52,475評論 1贊 312
城市分裂傳說
那天犀填，我揣著相機與錄音，去河邊找鬼嗓违。笑死九巡，一個胖子當著我的面吹牛，可吹牛的內容都是我干的蹂季。我是一名探鬼主播比庄，決...
沈念sama閱讀 41,010評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼乏盐！你這毒婦竟也來了佳窑？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 39,924評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤父能，失蹤者是張志新（化名）和其女友劉穎神凑，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體何吝，經...
沈念sama閱讀 46,469評論 1贊 319
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡溉委，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 38,552評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了爱榕。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瓣喊。...
茶點故事閱讀 40,680評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖黔酥，靈堂內的尸體忽然破棺而出藻三，到底是詐尸還是另有隱情，我是刑警寧澤跪者，帶...
沈念sama閱讀 36,362評論 5贊 351
?日本核電站爆炸內幕
正文年R本政府宣布棵帽，位于F島的核電站，受9級特大地震影響渣玲，放射性物質發(fā)生泄漏逗概。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 42,037評論 3贊 335
男人毒藥：我在死后第九天來索命
文/蒙蒙一忘衍、第九天我趴在偏房一處隱蔽的房頂上張望逾苫。院中可真熱鬧卿城，春花似錦、人聲如沸铅搓。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,519評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽狸吞。三九已至勉耀，卻和暖如春指煎，著一層夾襖步出監(jiān)牢的瞬間蹋偏，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,621評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工至壤，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留威始，地道東北人。一個月前我還...
沈念sama閱讀 49,099評論 3贊 378
代替公主和親
正文我出身青樓像街，卻偏偏與公主長得像黎棠，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子镰绎，可洞房花燭夜當晚...
茶點故事閱讀 45,691評論 2贊 361

seq^3 Differentiable Unsupervised abstractive sentence compression 和 MeanSum : A Neural Model...

MeanSum : A Neural Model for Unsupervised Multi-Document Abstractive Summarization

本文的亮點是ablation study做的很好募判。

推薦閱讀更多精彩內容

本文的亮點是`ablation study`做的很好募判。