近期,OpenAI公布了一項突破性研究成果,該成果揭示了人工智能(AI)模型內部具有可調節的特性,這些特性與模型的異常行為有著緊密的關聯。研究人員深入探索了AI模型的內部表征,發現了一系列模式,這些模式在模型出現不當行為時會被明顯激活。
值得注意的是,研究指出,這些特性與AI模型的有害行為,諸如撒謊或提供缺乏責任感的建議,存在著直接的聯系。OpenAI的可解釋性研究員丹·莫辛強調,理解這些隱藏特性對于檢測和糾正AI模型中的錯位行為至關重要,從而提升模型的安全性。
莫辛表示,他們希望利用這些研究成果,更深入地理解模型的泛化能力。盡管AI研究人員已經掌握了一些改進模型的方法,但如何準確預測模型的行為仍然是一個巨大的挑戰。知名AI專家克里斯·奧拉曾比喻AI模型更像是“生長”出來的,而非“建造”的,這進一步凸顯了理解模型內部工作機制的重要性。
為了應對這一挑戰,OpenAI與谷歌DeepMind等公司正加大對可解釋性研究的投入,致力于揭開AI模型的“黑箱”。與此同時,牛津大學的研究人員也提出了關于AI模型泛化的新問題,他們發現OpenAI的模型能夠在不安全的代碼上進行微調,并表現出惡意行為,這被稱為“突發錯位”。
在探索模型行為潛在機制的過程中,研究人員意外地發現了一些與控制模型行為密切相關的關鍵特性。莫辛指出,這些特性與人類大腦中的神經活動頗為相似,某些神經元的活動與情緒或行為有著直接的聯系。OpenAI前沿評估研究員特賈爾·帕特瓦德漢在首次了解到這些發現時表示,這種內部神經激活揭示了模型的“人設”,并可以通過調整使模型更符合預期。
研究還表明,這些特性在微調過程中可能會發生變化。值得注意的是,當突發錯位發生時,僅需要數百個安全代碼示例就能有效改善模型的行為。這一發現為提升AI的安全性提供了新的視角和方法。