few-shot,one-shot绑青,zero-shot
- Few-Shot指的是在推理過程中,給模型一些任務(wù)演示屋群。比如在下圖英譯法的任務(wù)中闸婴,會給出K個上下文和補(bǔ)全的示例,期待模型在給出類似的上下文時芍躏,對結(jié)果進(jìn)行補(bǔ)全邪乍。Few-shot的最主要優(yōu)點(diǎn)就是大大減少了對特定任務(wù)數(shù)據(jù)的需求,降低了從大且窄的微調(diào)數(shù)據(jù)集中學(xué)習(xí)到一個過窄分布的可能性。缺點(diǎn)就是庇楞,這個方法仍然遠(yuǎn)遠(yuǎn)落后于目前最先進(jìn)的fine-tune模型
- One-Shot在推理過程中榜配,只會給模型一個演示,其余同F(xiàn)ew-Shot相同
- Zero-Shot在推理過程中吕晌,不會給模型任何演示蛋褥,只會提供對任務(wù)的自然語言描述。這個方法非常便利睛驳、魯棒性強(qiáng)烙心、避免了預(yù)訓(xùn)練-微調(diào)的虛假相關(guān)性,但著實(shí)是一個極具挑戰(zhàn)的任務(wù)柏靶。在不給任何例子的情況下弃理,人類可能都很難理解某些任務(wù)的形式溃论,更何況模型
GPT-1(2018年6月)
GPT-2(2019年2月)
GPT-2的最大貢獻(xiàn)就是驗(yàn)證了通過海量數(shù)據(jù)和大量參數(shù)訓(xùn)練出來的語言模型屎蜓,可以遷移到下游其他任務(wù),無需額外訓(xùn)練和fine-tune.
GPT-3(2020年5月)
GPT-3嘗試解決GPT-2的有效性問題钥勋,大幅度將參數(shù)增加到1750億(是GPT-2的100多倍)
GPT-4(2023年3月)
image.png