人工智能領域正經歷一場靜悄悄的范式革命。當圖靈獎得主Yann LeCun與Richard Sutton公開質疑大語言模型發展路徑時,Transformer架構聯合發明人、OpenAI研究員?ukasz Kaiser以全新視角展開回應。這場關于技術路線的爭論,折射出AI發展從數據驅動向推理驅動的關鍵轉折。
在硅谷追逐通用人工智能(AGI)的熱潮中,OpenAI的Scaling路線引發持續爭議。經濟學家Tyler Cowen將2025年4月16日定義為"AGI誕生日",但這種樂觀預測遭遇多位頂尖學者質疑。強化學習之父Richard Sutton斷言現有大模型已觸及能力天花板,其改進空間遠比行業預期狹窄。開源深度學習框架Keras創始人Fran?ois Chollet更發起百萬美元ARC Prize競賽,試圖引導研究回歸"正確路徑"。
面對質疑,?ukasz Kaiser提出截然不同的技術演進圖景。他指出推理模型正在突破傳統訓練范式:這類模型所需數據量較前代降低數個數量級,卻能在數學推理、代碼分析等復雜任務中展現驚人能力。OpenAI首個推理模型o1在結構化任務中的表現,已顯著超越通用模型GPT-4o。這種"先思考后回答"的機制,使AI開始具備解決實際問題的能力——從撰寫報告到代碼審查,從數據庫核對到漏洞發現。
技術突破的背后是算力與能源的雙重約束。Kaiser坦言,當前所有實驗室都面臨GPU資源短缺的普遍困境,這解釋了奧特曼持續融資的深層動因。但不同于數據瓶頸的不可逆性,他認為算力限制只是階段性挑戰。隨著推理模型效率提升,單位算力能支撐更復雜的認知任務,這種技術杠桿效應將重塑AI發展軌跡。
編程領域的變革最具說服力。Claude 3.5發布時在SWE-Bench基準測試中僅取得30%通過率,短短一年后這個數字躍升至75%。現代AI代碼模型不僅能理解大型代碼庫,更能進行跨文件推理、發現隱蔽漏洞。這種指數級進步使開發者開始重新評估人機協作模式——AI不再僅是輔助工具,而是能獨立承擔復雜項目的生產力引擎。
多模態訓練的突破為推理能力注入新維度。通過將音頻、圖像編碼為離散token,神經網絡已掌握跨模態生成能力。盡管視頻訓練面臨數據冗余挑戰,但Kaiser強調AI需要發展"重點提取"機制,自動識別運動軌跡、因果關系等關鍵信息。這種對物理世界的理解能力,將成為實用機器人技術的突破口。谷歌Gemini 1.5 Robotics的實驗已展示初步成果:結合視覺感知的推理系統,正在讓機器人具備"慢思考"與"快反應"的雙重能力。
這位波蘭裔科學家的人生軌跡頗具戲劇性。16歲時為AGI概念提出者Ben Goertzel編寫程序,博士階段攻讀自動機理論,卻在谷歌大腦團隊期間轉向深度學習研究。作為Transformer架構的聯合發明人,他先后參與TensorFlow系統開發和Trax庫構建,見證了AI從符號推理到神經網絡的范式轉變。如今他帶領團隊探索的推理模型,或許正在開啟第三個技術紀元。
當行業爭論AGI是否到來時,Kaiser更關注技術落地的實質進展。他觀察到企業開始將核心業務委托給AI處理,這種信任建立在實際效能而非概念炒作之上。從代碼生成到科研輔助,從醫療診斷到金融分析,推理模型正在重塑知識工作的價值鏈條。這種變革或許比AGI的哲學爭論更具現實意義——當機器開始真正"思考",人類與智能的邊界注定要重新定義。











