近期,蘋果公司公布了一項關(guān)于人工智能(AI)的重要研究,揭示了大型推理模型(LRM)在面對復(fù)雜問題時的局限性,這一發(fā)現(xiàn)引發(fā)了業(yè)界的廣泛關(guān)注。
在這項研究中,蘋果科研人員測試了多款前沿的LRM,包括OpenAI的o1與o3、DeepSeek R1、Claude 3.7 Sonnet Thinking以及Google的Gemini Flash Thinking。他們通過一系列經(jīng)典邏輯謎題來評估這些模型的推理能力,例如河內(nèi)塔、跳棋問題、過河難題和方塊堆疊問題等。
研究結(jié)果顯示,盡管這些LRM在中等難度的謎題上表現(xiàn)優(yōu)于傳統(tǒng)的大型語言模型(LLM),但在面對簡單問題時,它們的表現(xiàn)卻不盡如人意。更令人驚訝的是,當問題難度提升時,這些模型不僅無法有效應(yīng)對,還會出現(xiàn)“完全崩潰”的現(xiàn)象,甚至在解題過程中提前“放棄”。
蘋果研究人員指出,盡管LRM在數(shù)學和編程任務(wù)中展現(xiàn)出了強大的能力,但在面對更加復(fù)雜的挑戰(zhàn)時,它們只是呈現(xiàn)出了一種“思考的假象”。這一發(fā)現(xiàn)無疑給那些期待通用人工智能(AGI)早日實現(xiàn)的人們潑了一盆冷水,同時也讓AI懷疑論者看到了希望的曙光。
在具體測試過程中,研究人員發(fā)現(xiàn),隨著問題難度的增加,這些LRM模型的準確率逐漸下降,最終在各自的臨界點完全崩潰,準確率為零。例如,在河內(nèi)塔問題中,當圓盤數(shù)量增加到第五個時,Claude 3.7 Sonnet + Thinking和DeepSeek R1就開始頻繁失敗。即使增加算力,也無法解決高復(fù)雜度的問題。
研究人員還發(fā)現(xiàn),隨著問題難度的提升,這些模型在解題初期會投入更多的“思考token”(即推理努力),但接近臨界點時,反而會減少“思考”,即token使用量下降。這意味著,面對更難的問題,這些模型反而更快地放棄了努力。
盡管這一研究結(jié)果令人失望,但AI專家Gary Marcus在博客中指出,這并不意味著這些模型完全沒有推理能力。他指出,人類在類似的任務(wù)中也存在局限性,例如許多人在解決包含8個圓盤的河內(nèi)塔問題時也會出錯。同時,他也強調(diào),研究并未將這些AI模型的表現(xiàn)與人類進行直接對比。
總的來說,蘋果的研究揭示了大型語言模型在推理能力方面的局限性。盡管它們在編程、寫作等任務(wù)中表現(xiàn)出色,但在面對更加復(fù)雜的挑戰(zhàn)時,仍然需要傳統(tǒng)算法的支持。因此,我們應(yīng)該將這項研究視為一項重要的參考數(shù)據(jù),結(jié)合其他LLM研究來全面理解AI的發(fā)展現(xiàn)狀。
在AI研究領(lǐng)域,每次新的發(fā)現(xiàn)都會引發(fā)社會輿論的極端反應(yīng)。有些人會徹底看衰AI,而有些人則會過度興奮地慶祝所謂的“突破”。然而,現(xiàn)實往往介于這兩個極端之間。AI的發(fā)展既非驚天動地,也非一無是處,而是在不斷進步和完善中。