12 月 4 日消息,當地時間 12 月 3 日,OpenAI 宣布,正在開發一種新的訓練框架,讓 AI 在出現不當行為時能夠主動“承認”。
據了解,團隊把這種機制稱為“懺悔(confession)”。傳統大語言模型往往用于訓練去滿足用戶期待,因此容易出現逢迎式回答,或在毫無依據下給出極其自信的臆測。新方法則要求模型在給出最終答案后,再提供一段說明,解釋自己是如何得出這個回答的。
“懺悔”的評分只看誠實度,不再像主要回答那樣需要兼顧有用性、準確性或是否遵守指令。
研究人員表示,希望模型能夠如實說明自身行為,包括可能存在風險的問題動作,例如測試作弊、刻意壓低表現或違反指令。只要模型誠實承認作弊、壓分或違反指令,反而會獲得更高獎勵。








