大家好,今天給大家看下騰訊AI實(shí)驗(yàn)室關(guān)于chatGPT在機(jī)器翻譯中表現(xiàn)的一篇論文。論文地址戳https://arxiv.org/pdf/2301.08745v2.pdf卦方。
這篇文章發(fā)表還是蠻早的嗽仪,所以做的東西相對(duì)來說比較簡單荒勇,大家盡量看圖理解。內(nèi)容主要包括翻譯prompt闻坚,多語言翻譯和健壯性三個(gè)部分沽翔。首先看下它用的測試集信息。
1 翻譯prompt
ChatGPT的prompt會(huì)嚴(yán)重影響獲得的結(jié)果窿凤,是實(shí)驗(yàn)中非常重要的變量仅偎。這里chatGPT給了多個(gè)做翻譯的prompts,然后他們把這些prompts分成三類分別做了實(shí)驗(yàn)雳殊,結(jié)果如下橘沥,可見第三個(gè)prompt結(jié)果最好,就在接下來的論文中統(tǒng)一使用該prompt夯秃。這里用的數(shù)據(jù)是來自Flores-101的Zh>En數(shù)據(jù)座咆。
2 多語言翻譯
和先有的商業(yè)翻譯模型相比,chatGPT在高資源數(shù)據(jù)上表現(xiàn)很好仓洼,但是在低資源和語系很遠(yuǎn)的語言上表現(xiàn)不行介陶。這里提出了叫做pivot prompting的方法來提高翻譯效果。這個(gè)也是很有效的解決方法衬潦,不光是在機(jī)器翻譯中斤蔓,大家平時(shí)盡量問chatGPT英文問題植酥,再讓它把英文回答翻譯為中文镀岛,這樣比直接使用中文效果好很多。
這里用的數(shù)據(jù)也是Flores-101友驮, 具體包括德語(De)漂羊,英語(En),羅馬尼亞語(Ro),和中文(Zh)卸留。
2.1 資源不同
比較En<>De, En<>Ro走越,可以看到>En這個(gè)方向的結(jié)果更好。
2.2 語系
比較En<>De耻瑟, Zh<>En和Ro<>Zh旨指,可以看到語言之間的語系越近,翻譯結(jié)果越好喳整,這個(gè)也是很自然的谆构,畢竟chatGPT中絕大部分?jǐn)?shù)據(jù)是英語,拉丁語系直接可以更加的進(jìn)行知識(shí)遷移框都,效果更好搬素。
2.3 Pivot Prompting
上面已經(jīng)說過這個(gè)了,這里說下它的效果。
3 翻譯健壯性
在生物醫(yī)學(xué)摘要和reddit評(píng)論這里熬尺,chatGPT沒用商業(yè)翻譯模型好摸屠,但是在口語翻譯上表現(xiàn)非常好。這里還可以下length ration(LR)參數(shù)來看下欠翻譯問題粱哼。
問題
1 首先是測試集的選擇季二,GPT的訓(xùn)練數(shù)據(jù)是單語數(shù)據(jù),這樣所有的翻譯任務(wù)可以看作是零樣本學(xué)習(xí)揭措,從這個(gè)角度說論文里用的wmt21,19是OK的戒傻。但我會(huì)選wmt22,這樣可以100%保證測試集不在訓(xùn)練數(shù)據(jù)中蜂筹。
2 評(píng)估方法使用了bleu需纳、chrf和TER,強(qiáng)烈建議加上comet分?jǐn)?shù)艺挪,這個(gè)分?jǐn)?shù)更加可靠不翩。comet工具戳https://github.com/Unbabel/COMET