文章名稱
【AAAI-2021】【IBM Research AI】Generate Your Counterfactuals: Towards Controlled Counterfactual Generation for Text
核心要點
文章旨在通過反事實生成樣本的方法陈辱,更好的解釋現(xiàn)有NLP模型的公平性和魯棒性兴使。作者提出GYC框架,可以基于特定的條件,例如,命名實體標(biāo)簽衰齐、語義角色標(biāo)簽或情感等,生成合理的、多樣化的沸呐、面向目標(biāo)的和有效的反事實樣本。生成的反事實樣本可以作為測試用例呢燥,來評估模型和任何文本去偏算法崭添。
研究背景
機(jī)器學(xué)習(xí)方法應(yīng)用越來越廣泛,因此ML(包括NLP等)系統(tǒng)的可信度至關(guān)重要叛氨,需要保證它們做出的決策是公平(Fairness)和穩(wěn)健的(Robust)呼渣。[1]提出了以反事實文本做為替代數(shù)據(jù)集 ,作為測試用例來評估這些系統(tǒng)的公平性和魯棒性等屬性寞埠。[2]提出利用反事實文本及其正確標(biāo)簽徙邻,來加強(qiáng)訓(xùn)練集(混合反事實和原始訓(xùn)練集)以減輕文本模型中潛在的不公平和非魯棒。
反事實文本應(yīng)當(dāng)具有如下四個屬性畸裳,包括,
- 合理性(actionable)淳地。確保生成的反事實樣本(測試用例)是真實的怖糊,可以進(jìn)一步用于訓(xùn)練模型,提升性能(包括公平性和魯棒性)颇象。
- 多樣性伍伤。確保生成的反事實樣本對目標(biāo)輸入空間有較高的覆蓋率,而不會導(dǎo)致模型只過擬合到某些文本樣本上遣钳。
- 目標(biāo)導(dǎo)向性扰魂。確保生成的反事實樣本,可以由用戶控制,滿足某些特性劝评。
- 有效性姐直。確保生成的反事實樣本利用率夠高,且不偏離原始樣本太多蒋畜。
利用這些反事實樣本声畏,可以有效地發(fā)現(xiàn)一些模型失效的案例,例如NLP分類器的標(biāo)簽翻轉(zhuǎn)問題(比如發(fā)現(xiàn)姻成,positive被預(yù)測成negative的原因)插龄。同時,這些樣本還能用來當(dāng)做測試對抗攻擊的樣本科展。但是這樣的(天然)測試樣本非常少均牢,并且局限于特定領(lǐng)域。此外才睹,可能(特征取值)并不合理徘跪,例如不符合語法[3]或在許多情況下需要人工干預(yù)[4]。[5]利用一些預(yù)先設(shè)定的模板進(jìn)行反事實樣本生成砂竖,該類方法的一個主要局限是不能生成有意義的真椿、多樣化的反事實樣本。一些現(xiàn)有方法生成的樣本如下圖所示乎澄。單詞替換或基于模板的方法生成的文本突硝,質(zhì)量較差,不具有上述4個性質(zhì)置济。而對抗生成方法[6]主要是生成可以改變樣本標(biāo)簽的句子解恰,而忽略了plausible,導(dǎo)致生成的樣本不太可能出現(xiàn)在用戶輸入中(真實場景里)浙于。因此护盈,這些生成的樣本對提升模型能力或作為測試樣例來說是低效的。
雖然羞酗,GPT-2[7]等生成模型可以生成合理且具有多樣性的文本腐宋,可以用來生成反事實文本。但是檀轨,作者表示該類方法不便于基于特定屬性(或者說控制條件)進(jìn)行控制和調(diào)節(jié)[8](無法方便的做到controllable)胸竞,與[9]類似,作者采用controllable text generation實現(xiàn)反事實文本生成参萄。不過卫枝,存在2個難點,
- Transformers可以生成沒毛病讹挎,但在GPT-2上進(jìn)行inference卻很困難校赤。
- GPT-2不支持controllable text generation吆玖。
方法細(xì)節(jié)
針對上述問題,作者提出一種反事實生成框架(GYC)马篮。該框架可以應(yīng)用于多種現(xiàn)有模型沾乘,來引導(dǎo)反事實文本生成。該框架包括2個大的步驟积蔚,
- 重建輸入文本意鲸。
- 利用(作者設(shè)計的)微分和不可微分損失實現(xiàn)controllable text generation。
實現(xiàn)控制文本生成時尽爆,控制目標(biāo)可以使文本情感類別怎顾、需要生成的實體(文章中寫的NER)或者是特定的類別標(biāo)簽。其中漱贱,可微分損失是對根據(jù)輸入句子的logits計算的槐雾,而不可微分損失通過對生成文本計算(人工設(shè)計的)reward得到。 此外幅狮,為了確保生成的反事實文本具有多樣化性募强,作者在logits上添加了熵?fù)p失(最大化熵,提升生成結(jié)果的多樣性崇摄,在很多RL的方法中常用擎值,保證action不要過于單一)。
本節(jié)講解了作者的研究問題的背景逐抑,思路以及具體框架鸠儿。下一節(jié)繼續(xù)介紹具體的實現(xiàn)方法。
心得體會
反事實樣本生成
樣本生成厕氨,特別是自然語言文本生成进每,不是什么新概念,并且已經(jīng)被用在各種場景命斧。但是可生成的文本那么多田晚,究竟生成什么樣的樣本?更重要的怎么控制模型生成想要的樣本国葬?還是不斷發(fā)展的研究領(lǐng)域贤徒。越來越多的文本生成方法開始注重精細(xì)的控制能力,也就是所謂的controllable text generation汇四。作者表示的反事實樣本除了需要goal-orientated接奈,還需要保證plausible,diversity并且effective船殉。因此,個人感覺斯嚎,可以說反事實文本生成是更精細(xì)的文本生成方法(當(dāng)然能局限于特定場景和方向)利虫。
有了精細(xì)挨厚、可控的生成方法,可想象的空間很大盖袭。生成的反事實文本常挚,除了可以測試模型的公平性和魯棒性仍侥,還可以直接用于數(shù)據(jù)增廣,也被看做更精細(xì)的generator巢价,做對抗訓(xùn)練(個人感覺)。此外固阁,(微調(diào)到適應(yīng)下游任務(wù)后)生成器也可以直接應(yīng)用于NLG場景壤躲。
反事實生成其實只是一個方向性的指導(dǎo),反事實生成目標(biāo)所構(gòu)成的目標(biāo)(損失函數(shù))可以和其他生成目標(biāo)一起輔助訓(xùn)練(印象中已經(jīng)有這樣的文章了)备燃,或得到所謂生成器和判別器兩個副產(chǎn)品碉克。
貝葉斯法則
在PPLM中并齐,作者采用貝葉斯法則,把條件概率轉(zhuǎn)化撕贞,并利用KL散度進(jìn)行輔助約束捏膨。這種目標(biāo)函數(shù)轉(zhuǎn)化技巧無法直接實現(xiàn)條件概率最大化的場景經(jīng)常用到赐纱,值得學(xué)習(xí)和借鑒疙描。
文章引用
[1] Pearl, J.; et al. 2000. Models, reasoning and inference. Cambridge, UK: CambridgeUniversityPress.
[2] Garg, S.; Perot, V.; Limtiaco, N.; Taly, A.; Chi, E. H.; and Beutel, A. 2019. Counterfactual fairness in text classification through robustness. In Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society, 219–226.
[3] Li, J.; Monroe, W.; and Jurafsky, D. 2016. Understanding neural networks through representation erasure. arXiv preprint arXiv:1612.08220 .
[4] Jia, R.; and Liang, P. 2017. Adversarial examples for evaluating reading comprehension systems. arXiv preprint arXiv:1707.07328 .
[5] Ribeiro, M. T.; Wu, T.; Guestrin, C.; and Singh, S. 2020. Beyond Accuracy: Behavioral Testing of NLP Models with CheckList. arXiv preprint arXiv:2005.04118 .
[6] Michel, P.; Li, X.; Neubig, G.; and Pino, J. M. 2019. On eval- uation of adversarial perturbations for sequence-to-sequence models. arXiv preprint arXiv:1903.06620
[7] Radford, A.; Wu, J.; Child, R.; Luan, D.; Amodei, D.; and Sutskever, I. 2019. Language models are unsupervised mul- titask learners. OpenAI Blog 1(8): 9.
[8] Keskar, N. S.; McCann, B.; Varshney, L. R.; Xiong, C.; and Socher, R. 2019. Ctrl: A conditional transformer lan- guage model for controllable generation. arXiv preprint arXiv:1909.05858 .
[9] Dathathri, S.; Madotto, A.; Lan, J.; Hung, J.; Frank, E.; Molino, P.; Yosinski, J.; and Liu, R. 2020. Plug and Play Language Models: A Simple Approach to Controlled Text Generation. In International Conference on Learn- ing Representations. URL https://openreview.net/forum?id= H1edEyBKDS.