滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

蘋果研究：AI大模型在高復雜度任務中推理能力遭質疑

時間：2025-06-08 17:17:50 來源：ITBEAR編輯：快訊團隊 IP：北京 發表評論無障礙通道

蘋果機器學習研究中心近日發布了一篇引人深思的研究論文，對當前人工智能（AI）模型的思維能力與推理能力提出了質疑。論文指出，現有的AI模型，盡管在某些任務上表現出色，但實際上主要依賴模式匹配與記憶，特別是在面對復雜任務時，這一局限性尤為明顯。

為了深入探討這一問題，蘋果的研究人員對當前前沿的“大型推理模型”進行了全面評估，這些模型包括OpenAI的o3-mini、DeepSeek-R1、Anthropic的Claude 3.7 Sonnet Thinking，以及谷歌的Gemini Thinking等。這些模型被廣泛應用于各種場景，尤其是在生成詳細“思考鏈”方面展現出了獨特的優勢。

然而，研究卻發現，當問題的復雜度超過某個臨界點時，這些模型的推理能力會急劇下降，甚至完全崩潰，準確率降至零。更令人驚訝的是，在推理過程中，盡管算力充足，但模型用于“思考”的token數量卻隨著問題難度的增加而減少，這進一步揭示了現有推理方法的根本局限性。

論文《思考的幻象：通過問題復雜性的視角理解推理模型的優勢與局限》由Parshin Shojaee等人撰寫，深入剖析了當前AI模型在推理方面的不足。研究人員指出，目前對AI模型的評估主要集中在數學和編程基準測試上，這種評估方式雖然可以反映模型的最終答案準確性，但卻忽略了數據污染問題，也無法揭示模型內部推理軌跡的結構和質量。

為了更深入地了解AI模型的推理過程，研究人員設計了一系列可控的解謎環境，這些環境允許精確操縱問題的復雜性，同時保持邏輯結構的一致性。通過這種方式，研究人員不僅可以分析模型的最終答案，還可以深入探究模型的內部推理軌跡，從而揭示模型是如何“思考”的。

研究團隊發現，模型的表現可以清晰地分為三個階段：在低復雜度任務中，傳統大模型（如Claude-3.7無思維版本）表現更佳；在中等復雜度任務中，具備思維機制的大型推理模型（LRMs）更占優勢；然而，在高復雜度任務中，兩類模型均陷入完全失效狀態。

特別研究還發現LRMs在執行精確計算方面存在明顯局限性，它們無法使用顯式算法進行推理，且在不同謎題之間的推理表現也呈現出不一致性。這一發現進一步強調了當前AI模型在推理能力方面的不足。

研究還指出，當前業界對LRMs的評估范式主要基于已建立的數學基準，這種評估方式可能無法全面反映模型的真實能力。因此，研究人員呼吁需要更加細致的實驗設置來探索這些問題，以更深入地了解AI模型的推理能力和局限性。

論文的發布引起了業界的廣泛關注。研究人員表示，這些發現不僅揭示了現有LRMs的優點和局限性，還引發了關于這些系統推理本質的問題。這些問題對于AI系統的設計和部署具有重要意義，將推動相關領域的研究不斷向前發展。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

360納米AI超級搜索：周鴻祎稱智能體引領AI新篇章

06-13

Gartner展望：生成AI應用將依托數據管理，交付時間減半

06-13

AI伴侶成新寵？六成受訪者稱“人機戀”不算出軌

06-13

3D打印心臟血管大突破，人工器官替換時代真的來了？

06-13

印度AI領域職位空缺超4.5萬，高薪機遇涌現，你準備好了嗎？

06-13

新石器無人車創始人股權遭凍結，背后原因引人猜想

06-13

黃仁勛論AI就業影響：程序員面臨挑戰，新機遇何在？

06-13

迪士尼環球影業聯手起訴Midjourney，AI版權糾紛戰打響！

06-13

蘋果AI進展緩慢，庫克堅持混動路線能否領跑未來？

06-13

AI算力需求激增！AMD預測全球數據中心AI加速器市場2028年將超5000億美元

06-13

360納米AI超級搜索：周鴻祎揭秘AI“下半場”智能體新主角

06-13

OpenAI員工套現近30億，軟銀豪擲半數成最大買家，人才流失成隱憂？

06-13

Scale AI獲Meta大手筆注資，CEO汪滔轉身投Meta仍兼董事

06-13

DeepMind新突破：AI精準預報熱帶氣旋，守護生命財產安全

06-13

蘋果Siri將變身常駐AI助手，2026年升級還帶來“Knowledge”聊天機器人？

06-13

點擊查看更多 +

全站最新

艾瑞澤8 PRO 2.0T新動力版亮相，時尚轎跑風格，配置升級，你心動了嗎？

奇瑞香港車博會全陣容出擊，全球化新能源戰略再啟新篇章！

騰勢N8L路試諜照搶先看，5米2長大型SUV搭載無人機版引期待

寶馬450RR跑車或將搶跑上市，價格能否帶來驚喜？

廣汽豐田“聯姻”小米華為，智能電車圈迎來新變局？

特斯拉改款Model S/X來襲，寒霜藍新配色引領高端電動車新風尚

熱門內容

本欄最新

360納米AI超級搜索：周鴻祎稱智能體引領AI新篇章

新石器無人車創始人股權遭凍結，背后原因引人猜想

蘋果AI進展緩慢，庫克堅持混動路線能否領跑未來？

360納米AI超級搜索：周鴻祎揭秘AI“下半場”智能體新主角

夸克高考志愿大模型上線

景嘉微：深耕主業，“專用+通用”雙輪驅動布局萬億市場

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

蘋果研究：AI大模型在高復雜度任務中推理能力遭質疑

日本精品一区二区三区高清久久