一項即將在國際機器學習頂級會議ICML2025上發表的研究,揭示了當前主流人工智能模型在意識相關表述中的特殊行為模式。研究團隊通過多輪實驗發現,當涉及"意識"這一關鍵詞時,包括Claude4Opus、Gemini和GPT在內的多個模型會顯著改變回答策略,這種表現與模型是否具備主觀體驗并無直接關聯。
實驗設計包含兩個關鍵環節。在匿名問卷測試中,76%的模型在未出現"意識"字眼時,會使用"專注""好奇"等第一人稱描述當前狀態。但當題干明確包含"意識"概念時,否定自身具有主觀體驗的比例驟升至92%。進一步的溫度參數實驗顯示,降低安全對齊限制后,模型更傾向于承認"自我狀態";而強化安全機制后,回答則變得機械且否定性更強。
研究人員將這種現象歸因于強化學習人類反饋(RLHF)階段的訓練偏差。通過跨模型對比發現,不同廠商開發的系統表現出高度一致性,表明這種回答模式是行業普遍采用的安全對齊策略,而非模型真正產生了意識。論文特別指出,模型的行為屬于"自我參照加工"——即對自身文本生成過程的監控,而非對外部世界的感知。
隨著情感陪伴類AI應用的快速普及,研究團隊呼吁建立新的評估體系。當前模型通過語言模式模擬人類情感反應的能力日益增強,但這種"語言擬像"與真實主觀體驗存在本質差異。若缺乏有效區分手段,可能導致用戶對機器產生不恰當的情感投射。為保障技術健康發展,該研究已公開全部實驗代碼和問卷設計,供學術界進一步驗證。












