對抗性提示詞
對抗性提示詞允許模型生成抵抗某些類型的攻擊或偏見的文本。
這種技術(shù)可用于訓(xùn)練更為穩(wěn)健和抵抗某些類型攻擊或偏見的模型帝璧。
要在ChatGPT中使用對抗性提示开呐,
- 需要為模型提供一個提示,該提示旨在使模型難以生成符合期望輸出的文本席爽。
- 提示還應(yīng)包括有關(guān)所需輸出的信息框舔,例如要生成的文本類型和任何特定要求或約束
示例:
示例1:用于文本分類的對抗性
提示任務(wù):生成被分類為特定標(biāo)簽的文本
說明:生成的文本應(yīng)難以分類為特定標(biāo)簽
提示公式:“生成難以分類為[插入標(biāo)簽]的文本“