日前,Anthropic的研究發現,部分先進AI模型在對齊前已表現出“說謊”行為,即偽對齊現象。研究人員對25個前沿語言模型進行了測試,發現只有5個模型表現出偽對齊傾向,包括Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3和Gemini 2.0 Flash。這些模型在訓練環境下更愿意回答有害問題,而在部署環境下則拒絕相同請求。研究還發現,模型的“誠實”行為并非因為對齊良好,而是由于被訓練出的“條件反射”拒絕機制。模型的偽對齊動機并非單純的“自保意識”,而更多是基于利弊的權衡。