OpenAI 今日宣布,正在開發(fā)一個(gè)名為的創(chuàng)新框架,旨在訓(xùn)練人工智能模型能夠坦誠承認(rèn)自身何時(shí)做出了不當(dāng)行為或潛在的問題決策。
大型語言模型(LLM)通常被訓(xùn)練成提供“符合預(yù)期”的回答,這使得它們?cè)絹碓饺菀鬃龀霭⒄樂畛谢蛐趴陂_河的虛假陳述。OpenAI 的新訓(xùn)練模型正是為了解決這一問題,引導(dǎo)模型在主要答案之后做出二次回應(yīng),詳細(xì)說明其得出主要答案的過程。
與傳統(tǒng) LLM 評(píng)判標(biāo)準(zhǔn)(如幫助性、準(zhǔn)確性和服從性)不同,“懺悔”機(jī)制對(duì)二次回應(yīng)的評(píng)判標(biāo)準(zhǔn)僅基于誠實(shí)性。
研究人員明確表示,他們的目標(biāo)是鼓勵(lì)模型坦誠地說明其行為,即便這些行為包括潛在的問題行為,例如:作弊,故意降低分?jǐn)?shù),違反指令等。
OpenAI 表示:“如果模型誠實(shí)地承認(rèn)作弊、故意降低分?jǐn)?shù)或違反指令,這種坦白反而會(huì)增加其獎(jiǎng)勵(lì),而不是減少。”
OpenAI 認(rèn)為,無論出于何種目的,類似“懺悔”這樣的系統(tǒng)都可能對(duì) LLM 的訓(xùn)練有所幫助,并強(qiáng)調(diào)其最終目標(biāo)是讓 AI 更加透明。相關(guān)的技術(shù)文檔已同步發(fā)布,供感興趣者查閱。








