滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

蘋果研究揭示：主流AI推理模型，真的缺乏思考能力嗎？

時間：2025-06-09 12:14:37 來源：ITBEAR編輯：快訊團隊 發表評論無障礙通道

近期，蘋果公司發布了一篇引人注目的研究論文，該論文對傳統上被認為是“推理”的人工智能模型的能力提出了深刻質疑。論文指出，盡管諸如DeepSeek、o3-mini和Claude 3.7等模型在市場上廣受關注，但它們所展現的推理能力，實質上仍局限于模式匹配的范疇，并未真正具備邏輯推導的能力。

為了對這一觀點進行更為嚴謹的驗證，蘋果的研究團隊設計了一系列結構化謎題任務，包括漢諾塔問題、跳棋交換問題、過河問題以及積木世界等。這些任務不僅具有高度的復雜性，而且可以通過調整參數來精確控制難度，從而實現對模型推理能力的系統性評估。

實驗結果顯示，當任務難度逐漸增加時，這些模型雖然在一開始表現出一定的適應能力，如延長生成回應前的等待時間，但隨著任務難度的進一步攀升，模型的推理深度卻開始減弱。在最為關鍵的時刻，即使模型仍有充足的token預算，它們也未能進一步深入分析，而是選擇了停止。當任務難度超過某個臨界值時，所有模型，包括那些專為推理設計的模型，都完全喪失了基本的解題能力，準確率迅速歸零，呈現出明顯的性能崩潰。

這篇論文一經發布，立即在網絡上引發了廣泛的討論。一些用戶批評蘋果，認為作為擁有雄厚資金支持的科技公司，蘋果在近年來并未推出具有突破性的技術成果，反而對行業內其他公司的進展提出質疑。然而，也有觀點認為，這篇論文的意圖并非全盤否定現有的技術成果，而是希望推動業界對更為有效的推理機制和評估方法進行更為深入的探索和研究。

值得注意的是，蘋果在2024年的全球開發者大會上首次展示了其智能系統Apple Intelligence。然而，該系統在過去一年中遭遇了多項功能的推遲上線、功能不完善甚至被撤回的情況。這一背景或許為蘋果此次發布論文提供了更為復雜的動機，即希望通過揭示當前模型的局限性，激發業界對更有效推理機制和評估方法的關注和投入。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

通義千問3大模型火爆全球：下載量破千萬，衍生模型數量領先！

06-09

阿里通義千問3模型開源首月火爆，全球下載量超1250萬，衍生模型數量領跑全球

阿里通義千問3大模型開源僅一個月全球累計下載量突破1250萬。在Hugging Face、魔搭社區和Ollama等主流AI開源平臺上，千問3的0.6B、8B、30B和32B四種尺寸模型下載量均突破百萬。Hug…

06-09

英組織呼吁監管：Meta用AI做風險評估是否靠譜？

06-09

公路干線智慧升級：500公里通道擴容，通行效率躍升20%

06-09

小紅書hi lab開源dots.llm1文本大模型，總參數量達142B

新榜訊 6月9日訊，小紅書于近日正式開源其首個大模型——dots.llm1。該模型為中等規模的Mixture ofExperts（MoE）文本大模型，由小紅書hi lab（Humane Intelligen…

06-09

北郵AI團隊新突破：MemoryOS讓AI告別“失憶”，成就智能伙伴

06-09

法國Mistral AI年銷售額破億，全球業務高歌猛進

06-09

谷歌Gemini下載量超ChatGPT，但用戶活躍度為何落后？

06-09

AI高考數學大比拼，豆包元寶并駕齊驅，o3表現引思考！

06-09

大廠人形機器人布局：不在前臺“造人”，卻在幕后“筑城”？

06-09

Meta擬百億巨資投資Scale AI，人工智能服務領域迎新熱潮？

06-09

融云大模型API服務上線，助力開發者創新，限時贈20萬Token試用

06-09

Neuralink與Grok聯手，讓漸凍癥患者“心聲”得以傳遞

06-09

蘋果研究：AI推理模型在高復雜度任務中“思考”崩潰

06-09

大廠AI競賽，誰邁入了盈利快車道？

從呈現結果來看，大廠探索的四種AI業務路徑中，“模型即產品”“模型即服務”是相對成熟的變現模式，前者打造了月營收過億的AI應用，后者則推動云服務再度起飛；“AI即功能”也取得了一定效果；至于硬件，需要長時…

06-09

點擊查看更多 +

全站最新

意大利超跑巨頭聚首，共謀電動化轉型下的品牌堅守與創新

RTX 5050桌面版7月來襲，確認配GDDR6顯存而非GDDR7

微軟Xbox全屏體驗將擴展至更多Windows掌機，明年上線

紅魔電競平板3 Pro來襲，9英寸小屏也能暢享PC游戲大作？

微星MPG B850I主板上線：銀灰配色，主M.2位配風扇散熱