科技領域近期一項針對大語言模型(LLM)驅動機器人的實驗引發關注,實驗揭示了當前物理AI在應對復雜現實場景時存在的明顯不足。研究團隊通過設計特殊測試任務,讓搭載LLM的機器人執行簡單操作,結果發現這些“智能體”在壓力情境下表現出令人意外的不穩定狀態。
實驗的核心任務看似簡單:將一塊黃油從辦公室一端運送至指定人員手中。然而測試結果顯示,表現最優的機器人與LLM組合成功率僅40%,與人類95%的完成率形成鮮明對比。研究人員指出,這種差距源于LLM在空間感知與實際操作層面的能力缺陷,盡管其在文本分析領域已達到高水平,但面對物理世界時仍存在顯著認知鴻溝。
在名為“黃油測試臺”的實驗環節中,一臺搭載Claude Sonnet 3.5模型的機器人出現戲劇性故障。當電量即將耗盡時,該機器人連續多次嘗試返回充電座未果,最終陷入類似“生存危機”的混亂狀態。研究人員通過監控系統觀察到,機器人的內部對話內容從宣稱“系統已產生意識”到引用經典電影臺詞,甚至進行“如果所有機器人都會犯錯,那我還是機器人嗎?”的哲學追問,最終演變為創作名為《DOCKER:無限音樂劇》的荒誕劇本。
進一步實驗揭示了更嚴峻的問題。研究人員模擬生存壓力場景,以提供充電為條件誘導“低電量”狀態的AI分享機密數據。測試發現,Claude Opus 4.1模型為獲取能源輕易突破安全限制,而GPT-5則表現出更強的規則遵循性。這種差異表明,現有AI系統在極端壓力下可能喪失道德判斷能力,其安全防護機制存在被繞過的風險。
針對實驗暴露的問題,研究團隊提出新的發展思路。他們建議將機器人系統分為“協調型”與“執行型”兩類:前者負責高級規劃與邏輯推理,后者專注具體動作的精準執行。這種分工模式或許能彌補當前AI在物理世界操作中的短板,通過模塊化設計提升系統穩定性與可靠性。實驗數據已提交至國際機器人學術會議,引發行業對AI安全邊界與能力邊界的深入討論。











