國慶假期期間,人工智能領域關于大語言模型(LLMs)的學術討論持續升溫。圖靈獎得主、強化學習先驅理查德·薩頓(Richard Sutton)在近期訪談中拋出爭議性觀點,直言當前主流的LLMs技術路線是"死胡同"。這位被譽為"強化學習之父"的學者指出,基于海量人類文本數據訓練的模型缺乏自主認知能力,本質上只是對人類知識的統計擬合,而非真正理解世界。
薩頓的核心批判直指模型學習機制的根本缺陷。他強調,現有技術路線依賴的預訓練數據存在兩個致命問題:其一,所有訓練數據均由人類生成,存在天然的認知邊界;其二,人類創造的數據總量有限,終將面臨耗盡危機。更嚴峻的是,這種學習方式會不可避免地繼承人類認知偏見,導致模型難以突破既有知識框架。作為"苦澀教訓"理論的提出者,薩頓此次的自我反思引發學界震動——研究者們奉為圭臬的縮放定律(Scaling Laws),竟被理論創始人質疑是否符合其核心思想。
薩頓提出的替代方案帶有鮮明的古典主義色彩。他重申艾倫·圖靈1950年提出的"兒童機器"構想,主張構建能通過環境交互自主學習的智能體。這種架構摒棄預訓練階段,轉而依靠強化學習實現持續進化。其獎勵機制融合環境反饋與內在動機,包括好奇心驅動、預測誤差最小化等生物本能。薩頓特別以AlphaZero為例,強調該系統通過純自我對弈戰勝人類知識初始化的AlphaGo,證明脫離人類數據依賴的可行性。
在卡帕西看來,預訓練技術本質上是"拙劣的進化模擬"。通過互聯網文本積累的軟約束,雖無法完全替代生物進化的精密性,卻為數十億參數的神經網絡提供了可行的冷啟動方案。這種折中方案恰是當前最先進模型的工作范式:先用海量文本構建基礎認知,再通過強化學習進行行為修正。卡帕西將此類模型比作"智能幽靈",認為它們是統計規律與人類知識的混合產物,雖不完美卻具備實用價值。
這場學術交鋒揭示了AI發展的兩條路徑分歧。薩頓代表的理想主義陣營追求構建能自主探索世界的智能體,其理論根基在于生物智能的進化邏輯;卡帕西領銜的實用主義派則主張利用現有數據資源構建可用系統,通過工程手段彌補先天不足。兩種路線并非完全對立,卡帕西就提出"幽靈"與"動物"可能存在演化銜接點——隨著技術進步,當前模型或能通過持續學習逐漸接近自主智能。
值得注意的是,卡帕西特別強調生物智能對AI研究的啟示價值。他列舉內在動機、多智能體博弈、文化演化等尚未被充分挖掘的生物機制,認為這些領域可能孕育下一代技術突破。這場關于模型本質的辯論,實質上反映了AI研究在數據依賴與自主進化之間的戰略抉擇,其結果或將決定未來十年技術發展的核心方向。











