在人工智能領(lǐng)域,一項(xiàng)由蘋果科研團(tuán)隊(duì)發(fā)起的研究揭示了大型推理模型(LRM)在應(yīng)對(duì)復(fù)雜任務(wù)時(shí)的局限性,為這一熱門研究方向帶來了意外的冷靜思考。
研究聚焦于Claude3.7Thinking和Deepseek-R1等推理模型,這些模型旨在通過模擬思維過程來提升問題解決能力。然而,在實(shí)際測(cè)試中,它們的表現(xiàn)卻令人失望。研究選取了四種經(jīng)典的邏輯謎題——漢諾塔、跳棋、渡河和積木世界,這些謎題因能夠精確調(diào)控任務(wù)難度,而被視為評(píng)估語言模型推理能力的理想工具。
測(cè)試結(jié)果顯示,在簡單任務(wù)上,傳統(tǒng)的標(biāo)準(zhǔn)大型語言模型(LLM)表現(xiàn)得更為準(zhǔn)確且高效。隨著任務(wù)復(fù)雜度的提升,雖然推理模型的表現(xiàn)略有改善,但最終還是在高復(fù)雜度任務(wù)面前全面崩潰。更令人驚訝的是,當(dāng)面對(duì)最復(fù)雜的任務(wù)時(shí),這些模型不僅準(zhǔn)確率驟降至零,而且使用的推理標(biāo)記(tokens)數(shù)量也顯著減少,表明它們?cè)凇八伎肌钡囊庠负湍芰ι隙汲霈F(xiàn)了衰退。
研究團(tuán)隊(duì)進(jìn)一步分析了模型在不同復(fù)雜度下的推理軌跡,發(fā)現(xiàn)兩種典型的失敗模式:一種是“過度思考”,即在簡單問題中,模型找到正確答案后仍持續(xù)生成錯(cuò)誤的備選方案;另一種是“思考崩潰”,在高復(fù)雜度問題中,模型的推理過程突然中斷,甚至無法嘗試生成任何解決方案。
一直以來,推理模型通過引入“思路鏈”和“自我反思”等機(jī)制,被視為通往通用人工智能(AGI)的關(guān)鍵一步。然而,蘋果的研究指出,這些機(jī)制在擴(kuò)展性上存在根本缺陷。當(dāng)前的推理模型無法制定出具有通用性的策略,其所謂的“思考”更多是基于統(tǒng)計(jì)的生成,而非真正的邏輯演繹。
研究還發(fā)現(xiàn),模型在不同謎題上的表現(xiàn)與訓(xùn)練數(shù)據(jù)密切相關(guān)。例如,在訓(xùn)練數(shù)據(jù)中頻繁出現(xiàn)的“漢諾塔”任務(wù),其準(zhǔn)確率普遍高于復(fù)雜度相似但數(shù)據(jù)較少的“渡河”任務(wù)。這進(jìn)一步凸顯了當(dāng)前模型對(duì)訓(xùn)練數(shù)據(jù)分布的嚴(yán)重依賴。
蘋果研究人員指出,當(dāng)前推理模型的“思維能力”存在與問題復(fù)雜度相對(duì)的不對(duì)稱擴(kuò)展性問題,在結(jié)構(gòu)上無法支撐高階任務(wù)的解決。他們呼吁,應(yīng)對(duì)推理模型的核心設(shè)計(jì)原則進(jìn)行重新思考,以克服這些根本性的技術(shù)挑戰(zhàn)。
這一發(fā)現(xiàn)對(duì)人工智能行業(yè)產(chǎn)生了深遠(yuǎn)的影響。隨著AI模型規(guī)模擴(kuò)展的收益逐漸趨于飽和,推理能力被視為推動(dòng)AI邁向下一階段革命的關(guān)鍵。包括OpenAI在內(nèi)的多家頭部企業(yè),都在這一方向上投入了大量資源。然而,蘋果的研究提醒我們,在通往真正“理解”和“推理”的道路上,AI仍然面臨著嚴(yán)峻的技術(shù)障礙。