廚房里突然發現缺少關鍵工具,一個聰明的助手會怎么做?是直接放棄,還是靈活尋找替代品?這個看似日常的場景,正折射出人工智能發展中的關鍵挑戰——AI系統是否真正理解物理工具的使用邏輯?香港科技大學研究團隊近期發布的評估基準PhysToolBench,通過系統性測試揭示了當前AI在工具理解領域的顯著短板。
這項發表于學術平臺的研究構建了包含1000余組圖像-文本對的測試集,覆蓋從家庭場景到專業領域的多樣化工具使用情境。研究團隊將測試劃分為三個層級:基礎識別層要求AI從圖像中選出特定任務所需的工具;深度理解層考察對工具物理特性、組合應用及狀態判斷的能力;創造應用層則模擬無標準工具時的替代方案生成。測試結果顯示,32個主流AI模型中表現最優者得分率僅63%,而人類平均得分超過90%,暴露出AI在物理世界交互中的根本性局限。
在基礎識別測試中,大型模型(參數量超100億)對常見工具的識別準確率可達60-70%,但面對專業器械或數字配件時錯誤率驟升。研究特別指出,當前嵌入機器人系統的中小型模型表現堪憂,參數量低于50億的模型準確率普遍不足50%,在區分HDMI線與DP線、Type-C與Lightning接口等相似物品時錯誤頻發。這種"數字工具盲區"可能導致設備誤操作或損壞。
深度理解測試揭示了更嚴峻的問題。當要求AI在300度高溫環境下選擇煎鍋時,多數模型仍會推薦不粘鍋而非導熱性更好的鑄鐵鍋;面對需要充電器、數據線、轉接器協同的手機充電任務,系統常出現工具遺漏或組合錯誤;最令人擔憂的是可用性判斷測試中,95%的模型無法識別破損工具,甚至會推薦使用柄部斷裂的馬桶疏通器。這種"視覺幻覺"現象表明,AI更多依賴表面模式匹配而非本質功能理解。
創造性應用測試中,AI的局限性進一步顯現。當要求用硬幣替代螺絲刀擰緊平頭螺絲時,僅3%的模型能提出有效方案,多數系統直接放棄任務。研究團隊設置的高難度場景(如野外制作捕獵工具)測試顯示,即便最先進模型也難以將杠桿原理、材料特性等物理知識轉化為實際應用,暴露出知識遷移能力的嚴重不足。
針對這些缺陷,研究團隊提出"視覺中心推理"改進框架。該方案通過三階段優化提升工具理解:首先進行場景全局分析,明確任務需求與可用物品;其次運用物體檢測技術對每個工具進行狀態、材質、尺寸等細節檢查;最后整合信息完成邏輯推理。實驗數據顯示,該方法使GPT-5在困難測試中的準確率從36.75%提升至54.81%,特別是在識別工具損壞狀態方面改進顯著。
研究同時指出,單純擴大模型規模或增加機器人訓練數據并未帶來預期效果。專門為機器人設計的RoboBrain-2模型在測試中表現甚至弱于通用版本,而具備強推理能力的GLM-4.5V等模型雖參數量較小,卻因邏輯分析能力突出取得更好成績。這提示未來開發需更注重因果推理訓練與物理原理融入。
該評估基準的開放特性正推動行業進步。研究團隊已公開測試集與評估代碼,為全球研究者提供統一對比平臺。這種標準化測試體系被認為將加速技術迭代,正如ImageNet推動計算機視覺發展,PhysToolBench或將成為衡量AI物理理解能力的關鍵指標。當前AI在工具使用領域仍類似"知識豐富但缺乏實踐的學生",但隨著視覺推理、物理建模等技術的突破,智能助手有望逐步突破現有局限,向真正實用的方向演進。











