四织中、實(shí)驗(yàn)
(一)實(shí)驗(yàn)建立
1抚笔、數(shù)據(jù)集1
第一個(gè)數(shù)據(jù)集是根據(jù)《騰訊新聞》(news.qq.com)構(gòu)建的中國數(shù)據(jù)集,最近在(Qin et al请琳。粱挡,2018)發(fā)表。每個(gè)數(shù)據(jù)點(diǎn)都包含由標(biāo)題和正文組成的新聞文章俄精,一組評論以及包括補(bǔ)充投票和類別的其他信息询筏。每個(gè)測試評論都由兩個(gè)注釋者按照5級標(biāo)記標(biāo)準(zhǔn)進(jìn)行標(biāo)記表3中顯示了數(shù)據(jù)中的所有文本,均由中文分詞器Jieba(https://github.com/fxsjy/jieba)標(biāo)記竖慧。
新聞標(biāo)題嫌套,新聞?wù)暮驮u論的平均長度分別為15個(gè)單詞,554個(gè)單詞和17個(gè)單詞圾旨。
2踱讨、數(shù)據(jù)集2?
除了中文數(shù)據(jù)外,我們還通過抓取新聞欄和Yahoo砍的!News的相關(guān)評論來構(gòu)建另一個(gè)數(shù)據(jù)集痹筛。除了投票和類別外,Yahoo數(shù)據(jù)中的附帶信息還包括Yahoo!標(biāo)記的段落標(biāo)記廓鞠,WIKI實(shí)體帚稠,投票,濫用投票和情感床佳。數(shù)據(jù)中的文本由Stanford CoreNLP pipline標(biāo)記(Manninget等翁锡,2014)。
作為預(yù)處理夕土,我們過濾掉正文中少于30個(gè)單詞的新文章馆衔,并過濾少于10個(gè)單詞或超過100個(gè)單詞的評論。然后怨绣,我們刪除評論少于5條的新聞報(bào)道角溃。如果一篇文章的評論數(shù)量超過30條,我們只會(huì)保留投票次數(shù)最多的前30條評論篮撑。
平均而言减细,新聞標(biāo)題,新聞?wù)暮驮u論分別包含12個(gè)單詞赢笨,578個(gè)單詞和32個(gè)單詞未蝌。有關(guān)Yahoo數(shù)據(jù)的更多信息可以在附錄A中找到驮吱。經(jīng)過預(yù)處理,我們隨機(jī)抽取了訓(xùn)練集萧吠,驗(yàn)證集和測試集左冬。從剩余的數(shù)據(jù)中,并確保三組之間沒有重疊纸型。表2總結(jié)了這兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息拇砰,請注意,在此工作中我們僅利用新聞標(biāo)題狰腌,新聞?wù)暮驮u論來學(xué)習(xí)生成模型除破,但兩個(gè)數(shù)據(jù)集均允許使用附帶信息對新聞評論的生成進(jìn)行建模,這可能是我們未來的工作琼腔。
3瑰枫、評價(jià)
跟著(Qin et al。丹莲,2018)光坝,我們評估了具有自動(dòng)指標(biāo)和人工判斷的不同模型的性能。
在自動(dòng)評估方面圾笨,我們采用BLEU(Pap-ineni等教馆,2002)逊谋,METEOR(Banerjee和Lavie擂达,2005),ROUGE(Lin胶滋,2004)和CIDEr(Vedan-tam等板鬓,2015)作為衡量指標(biāo)。這兩個(gè)數(shù)據(jù)究恤。除了這些指標(biāo)俭令,秦等人。 (2018)提出了人類得分加權(quán)指標(biāo)部宿,包括W-BLEU抄腔,W-METEOR,W-ROUGE和W-CIDEr理张。但是赫蛇,這些方法需要人工判斷測試集中的每個(gè)注釋。因此雾叭,我們只涉及w.r.t.騰訊數(shù)據(jù)中的這些指標(biāo)悟耘。作為Qinet al。 (2018)并未發(fā)布其度量計(jì)算代碼织狐,我們采用了一個(gè)受歡迎的NLG評估項(xiàng)目暂幼,網(wǎng)址為https://github.com/Maluuba/nlg-eval筏勒,并根據(jù)(Qin等人。旺嬉,2018)來計(jì)算所有指標(biāo)管行。
在人類評估中,對于每個(gè)數(shù)據(jù)集鹰服,我們從測試數(shù)據(jù)中隨機(jī)抽取500篇文章病瞳,并招募三名以母語為母語的人來判斷不同模型給出的評論的質(zhì)量。對于每篇文章悲酷,來自所有模型的評論都將被合并套菜,隨機(jī)打亂并呈現(xiàn)給注釋者。每個(gè)注釋均由三位注釋者根據(jù)表3中的標(biāo)準(zhǔn)進(jìn)行判斷设易。
(二)逗柴、基準(zhǔn)
選擇以下模型作為基準(zhǔn):
基本模型:(Qin等人,2018)中使用的檢索模型和生成模型顿肺,其中包括
(1)IR-T和IR-TC:這兩個(gè)模型都檢索一組候選帶有TF-IDF載體的評論余弦的相關(guān)文章戏溺。然后,通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)對評論進(jìn)行排名屠尊,并返回最高位置旷祸。不同之處在于IR-T僅使用標(biāo)題,而IR-TC則同時(shí)使用標(biāo)題和新聞?wù)摹?
(2)Seq2seq:從標(biāo)題生成注釋的基本序列到序列模型(Sutskeveret等讼昆,2014)托享;?
(3)Att和Att-TC:注意序列間(Bahdanau等人,2015)浸赫,其中輸入是標(biāo)題(Att)或標(biāo)題與正文的串聯(lián)(Att-TC)闰围。在Seq2seq,Att和Att-TC中既峡,返回了波束搜索的前1條評論(beamsize = 5).
GANN:提出的門控注意力神經(jīng)網(wǎng)絡(luò)(Zheng等人羡榴,2018)。該模型由生成對抗網(wǎng)絡(luò)進(jìn)一步改進(jìn)运敢。我們將模型表示為“ DeepCom”校仑,代表“深度評論者”,因?yàn)樗哂猩疃乳喿x評論架構(gòu)传惠。所有基線均根據(jù)相關(guān)論文中的細(xì)節(jié)實(shí)施迄沫,并在驗(yàn)證集上進(jìn)行了調(diào)整。
(三)涉枫、實(shí)現(xiàn)細(xì)節(jié)
對于每個(gè)數(shù)據(jù)集邢滑,我們形成一個(gè)詞匯,在整個(gè)數(shù)據(jù)中包含top30k個(gè)常見單詞。 Wepad或截?cái)嘈侣剺?biāo)題困后,
新聞?wù)暮妥⑨尷种剑蛊溟L度分別為30,600和50。
所有模塊中單詞嵌入的維數(shù)和GRU的隱藏狀態(tài)的大小均設(shè)置為256摇予。在我們的模型中汽绢,我們將d1as256和d2(即在閱讀網(wǎng)絡(luò)中嵌入位置的維度)設(shè)置為128。
所有MLP中隱藏層的大小為512侧戴。
蒙特卡洛采樣中的樣本數(shù)為1宁昭。
在預(yù)訓(xùn)練中,我們使用高斯分布N(0,0.01)初始化模型酗宋,并使用AdaGrad(Duchi et al积仗。,2011)以初始學(xué)習(xí)率0.15和初始累加器值0.1優(yōu)化目標(biāo)(12)蜕猫。
然后寂曹,我們優(yōu)化具有學(xué)習(xí)率0.01的隨機(jī)梯度消散度。在解碼中回右,選擇波束搜索的大小為5的top1注釋進(jìn)行評估隆圆。在IR-T和IR-TC中,我們在基于CNN的匹配模型中使用窗口大小分別為1,3和5的三種類型的過濾器翔烁。每種類型的過濾器數(shù)為128渺氧。
(四)、實(shí)驗(yàn)結(jié)果
表4報(bào)告了自動(dòng)度量和人工注釋方面的評估結(jié)果蹬屹。在大多數(shù)自動(dòng)指標(biāo)上侣背,DeepCom的性能均優(yōu)于基準(zhǔn)線方法,并且改進(jìn)具有統(tǒng)計(jì)學(xué)意義(t檢驗(yàn)哩治,p值<0.01)秃踩。 BLEU-1和W-BLEU-1的改進(jìn)要比其他指標(biāo)大得多衬鱼。這是因?yàn)锽LEU-1僅測量所生成注釋中的字母組合總數(shù)中所匹配的字母組合的比例业筏。在人類評估中,盡管由于人類判斷之間的差異鸟赫,絕對數(shù)字與(Qin等人蒜胖,2018)中報(bào)道的數(shù)字有所不同,但總體趨勢是一致的抛蚤。在人類評估中台谢,F(xiàn)leiss卡伯在所有模型中的價(jià)值都更高
(五)、討論
1岁经、消融研究:
我們將DeepCom的完整模型與以下變體進(jìn)行了比較:
(1)NoReading:將整個(gè)閱讀網(wǎng)絡(luò)替換為基于TF-IDF的關(guān)鍵字提取器朋沮,并將top40關(guān)鍵字(在驗(yàn)證集上調(diào)整)饋送到生成網(wǎng)絡(luò);?
(2)無預(yù)測:讀取網(wǎng)絡(luò)的預(yù)測層被刪除缀壤,從而整個(gè)生成網(wǎng)絡(luò)使用了Vis樊拓;?
(3)不抽樣:我們直接使用通過最大化目標(biāo)(12)進(jìn)行預(yù)訓(xùn)練的模型纠亚。表5報(bào)告了自動(dòng)指標(biāo)的結(jié)果。我們可以看到筋夏,所有變體均遭受性能下降的影響蒂胞,并且“無讀數(shù)”是這三個(gè)模型中最差的變體。
因此条篷,我們可以得出以下結(jié)論:(1)基于TF-IDF的關(guān)鍵字提取不能簡單地替換跨度預(yù)測骗随,因?yàn)榍罢呋趯π侣剤?bào)道的深刻理解并在端到端的學(xué)習(xí)過程中進(jìn)行了校準(zhǔn);(2)即使復(fù)雜的表示形式,因?yàn)樽⑨屔煽赡軙?huì)損害文章中的噪音赴叹,因此無法直接將整個(gè)文章饋入到生成網(wǎng)絡(luò)鸿染。 (3)預(yù)訓(xùn)練是有用的,但是優(yōu)化真實(shí)目標(biāo)的下限仍然是有益的乞巧。
為了進(jìn)一步了解DeepCom為何優(yōu)于其變體牡昆,我們使用兩個(gè)數(shù)據(jù)的測試集中的預(yù)測跨度和地面真相注釋來計(jì)算BLEU-1(表示為BLEUspan),并將其與基線BLEU-1(de-記為BLEUbase)摊欠,它是根據(jù)整篇新聞報(bào)道和地面事實(shí)評論計(jì)算得出的丢烘。在騰訊數(shù)據(jù)上,BLEUspan和BLEUbase分別為0.31和0.17些椒,而Yahoo數(shù)據(jù)上的兩個(gè)數(shù)字分別為0.29和0.16播瞳。喜歡發(fā)表評論,這解釋了DeepCom為什么勝于No Prediction免糕。比較無抽樣的Deep-Come時(shí)赢乓,我們發(fā)現(xiàn)DeepCom的跨度比無抽樣的跨度長。在騰訊數(shù)據(jù)的測試集中石窑,有抽樣和無抽樣的顯著跨度的平均長度分別為11.6和2.6牌芋,而Yahoo中的兩個(gè)數(shù)字?jǐn)?shù)據(jù)分別為14.7和2.3。因此松逊,DeepCom可以利用話語級別的信息
2躺屁、人工注釋的分析:
我們檢查DeepCom,Att-TC和IR-TC的人工標(biāo)簽的分布经宏,以深入了解這些模型所遇到的問題犀暑。表6顯示了結(jié)果。 IR-TC的大多數(shù)不良評論都標(biāo)記為“ 2”烁兰,這意味著耐亏,盡管IR-TC可以通過內(nèi)容豐富而深刻的內(nèi)容來消除有吸引力的評論,但其評論很容易與新聞文章區(qū)分開沪斟,因此被判斷為“無關(guān)緊要”广辰。就Att-TC而言,被判定為“ 1”的評論要多于其他兩種模型,這表明Att-TC經(jīng)常會(huì)產(chǎn)生錯(cuò)誤的句子择吊。這是因?yàn)樾侣勎恼潞妥⑨屧谡Z法和語義上都是高度不對稱的袱耽,因此生成過程不能簡單地用編碼器-解碼器結(jié)構(gòu)建模。 DeepCom的不良案例集中在“ 3”上干发,提醒我們將來我們需要進(jìn)一步豐富評論的內(nèi)容并提高其相關(guān)性朱巨。
3、案例研究:
最后枉长,為了進(jìn)一步理解我們的模型冀续,我們使用表7中的騰訊數(shù)據(jù)集的測試示例對預(yù)測的顯著跨度和生成的注釋進(jìn)行可視化。由于空間限制必峰,我們截?cái)嗔酥黧w洪唐,并且在截?cái)嗟闹黧w中僅顯示了選定跨度的三個(gè)。全文吼蚁,包括全套跨度和Yahoo!的另一個(gè)測試示例新聞數(shù)據(jù)集顯示在附錄B中凭需。盡管如此,我們?nèi)钥梢钥吹皆撃P驮凇伴喿x”文章并沿著一個(gè)跨度(即“ Chinese Pal-adin 3”)合成注釋后發(fā)現(xiàn)了一些有趣的觀點(diǎn)肝匆。更有趣的是粒蜈,該模型與Tiffany Tang的合伙人“ LuoJin”在評論中擴(kuò)展了文章的內(nèi)容,但本文中并未提及旗国。另一方面枯怖,通過基線方法給出的評論要么太籠統(tǒng)(Att-TC,最佳生成基線)能曾,要么與文章完全無關(guān)(IR-TC度硝,最佳重新標(biāo)題):唐嫣為什么不演清宮劇寿冕?(為什么蒂芙尼·坦能(Tiffany Tangnever)在清朝大戲中扮演角色蕊程?)天后的形象。...如果說唐是最美的造型是《仙劍奇?zhèn)b傳三》中的紫萱驼唱,那最丑的造型應(yīng)該就是這個(gè)了吧藻茂!...(...蒂芙尼·唐(TiffanyTang)的表演廣受歡迎,她在許多活動(dòng)中的多樣造型使她在公眾心中樹立了“重塑女王”的形象曙蒸。...她最美麗的角色是《中國圣騎士3》中的紫萱捌治。 岗钩,那么最丑陋的應(yīng)該是這個(gè)纽窟!...)DeepCom:唐嫣羅晉的演技真的很好,特別喜歡她演《仙劍奇?zhèn)b傳》??兼吓。 (TiffanyTang和Luo Jin確實(shí)是好演員臂港。我特別喜歡她在《中國圣騎士3》中的角色。我認(rèn)為電視劇值得一看。)Att-TC:我也是醉了(我什么都沒有IR-TC:星爺和誰開撕過嘛审孽,都是別人去撕星爺O馗ぁ(周星馳從不和別人打架。表7:來自騰訊新聞數(shù)據(jù)集的案例紅色框中的內(nèi)容表示閱讀網(wǎng)絡(luò)預(yù)測的顯著跨度佑力。藍(lán)色框中的內(nèi)容是生成的實(shí)體式散,包含在顯著spans.trieval基線中。這個(gè)例子表明打颤,我們的模型可以通過分析和理解新聞來產(chǎn)生相關(guān)的和有益的評論暴拄。
五、結(jié)論
我們建議使用閱讀網(wǎng)絡(luò)和生成網(wǎng)絡(luò)來自動(dòng)生成新聞評論编饺。在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明乖篷,該模型在自動(dòng)評估和人工評估方面都可以大大優(yōu)于基線方法。在應(yīng)用程序上透且,weare致力于擴(kuò)展流行的聊天機(jī)器人的功能撕蔼。通過使用這些方法來生成被視為人類的新聞評論,我們意識到了潛在的道德問題秽誊。希望圍繞負(fù)責(zé)任的技術(shù)激發(fā)關(guān)于最佳做法和這些方法的控制的討論