在麻省理工學院生成式AI影響力聯盟近期舉辦的研討會上,meta首席AI科學家、紐約大學教授Yann LeCun再次以“叛逆者”姿態引發關注。這位2018年圖靈獎得主不僅重申“大語言模型是死胡同”的論斷,更直言當前人形機器人熱潮存在根本性缺陷:“這些公司連如何讓機器人具備基礎智能都不知道。”
LeCun的學術生涯始于對“非主流”技術的堅持。1987年,當AI界沉迷專家系統時,他在巴黎完成的博士論文奠定了神經網絡反向傳播算法的基礎。這項如今支撐AI革命的技術,在當時被視為“異端”。“我本科時發現,MIT等機構五六十年代就研究過生物自組織現象,”他回憶道,“這讓我堅信:智能系統必須自我構建,而非人工設計。”
2016年,LeCun在NeurIPS大會提出“蛋糕理論”引發爭議。他將自監督學習比作蛋糕主體,監督學習是糖霜,強化學習僅為櫻桃。“當時DeepMind等機構瘋狂投入強化學習,但我始終認為這種試錯機制效率太低。”他指出,系統最終需要自我修正能力,但這應是最后手段而非核心路徑。
在視頻預測領域的早期失敗促使團隊轉向新方向。LeCun解釋,預測視頻幀的復雜度遠超文本:“會議室視頻中,系統無法預知每個人的長相、房間布局甚至地面紋理。強迫預測細節只會扼殺模型。”這種認知推動了非生成式架構的研發,其核心在于:讓系統學習數據的內在結構,而非機械復制。
盡管meta的Llama模型用戶突破10億,LeCun卻刻意保持距離。“第一代Llama是巴黎團隊‘海盜項目’的成果,”他透露,“十人小組用半年時間就開發出輕量級模型,這種敏捷性反而成就了后來的爆發。”但他同時警告,當前技術路線存在根本局限:以Llama 3為例,其訓練數據量相當于人類40萬年閱讀量,卻僅與四歲兒童四年的視覺信息量相當。
“孩子通過每秒2兆字節的視覺輸入構建世界模型,而大語言模型連貓的智能都達不到。”LeCun用家貓舉例:僅有28億神經元的動物卻能理解物理規律、規劃復雜動作,“這暴露出當前AI在物理世界建模上的巨大鴻溝。”
LeCun團隊提出的JEPA架構試圖破解這一難題。不同于生成式模型對像素的精確重建,JEPA在表征空間進行預測:“系統學會忽略無法預測的細節,同時保留關鍵信息。”實驗顯示,這種非生成式方法在圖像任務上已超越監督模型,且學習效率顯著提升。
在機器人領域,基于JEPA的世界模型展現出潛力。通過自監督學習獲得的環境動力學模型,可使機器人完成零樣本任務規劃。“給定當前狀態和動作,系統能預測后續狀態,”LeCun解釋,“這就像經典控制理論,但動力學模型來自數據而非方程。”某實驗中,機器人僅用62小時就自主掌握新任務,且無需針對特定場景訓練。
對于AI安全,LeCun提出“目標驅動架構”的解決方案。通過在目標函數中嵌入硬編碼規則,系統從構造上就無法突破預設邊界。“就像給家用機器人設定底層規則:持刀時不得揮動手臂。”他將此類比法律系統:“人類用數千年時間完善了行為約束機制,AI安全不過是相同邏輯的延伸。”
當被問及對年輕研究者的建議時,LeCun強調基礎學科的重要性:“在移動編程和量子力學之間,永遠選擇后者。”他解釋,抽象理論能培養解決復雜問題的能力,“就像語音識別中的路徑積分算法,本質是量子力學概念的離散化應用。”











