一水 鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
好一個一吐為快!
年底就要正式離開meta的LeCun,這下真是啥都不藏了。
不看好大語言模型能通往AGI,他就言辭犀利地指出:
通往超級智能之路——只需訓(xùn)練大語言模型,用更多合成數(shù)據(jù)訓(xùn)練,雇傭成千上萬的人在后訓(xùn)練中“教育”你的系統(tǒng),發(fā)明強化學(xué)習(xí)的新花招——我認為這完全是胡說八道。這根本行不通。
看不慣即將成為“前任”的meta的封閉作風(fēng),他也直言不諱:
meta正在變得更加封閉……FAIR被推動去從事一些比傳統(tǒng)上更偏向短期的項目。
而且還順帶劇透,自己將要創(chuàng)辦的新公司仍會繼續(xù)堅持開放。
以上內(nèi)容來自LeCun最新參與的一檔播客節(jié)目。在接近兩小時的對談中,他主要回答了:
為什么硅谷對擴展語言模型的癡迷是一條死路?
為什么AI領(lǐng)域最難的問題是達到狗的智能水平,而非人類的智能水平?
為什么新公司選擇構(gòu)建在抽象表示空間中進行預(yù)測的世界模型,而非直接生成像素的模型?
……
總結(jié)起來就是,不管是在meta接近12年的研究經(jīng)歷,還是接下來要創(chuàng)辦的新公司,抑或是未來想要實現(xiàn)的AGI,通通都在這里了。
人生下一程:創(chuàng)辦新公司AMI
告別工作十二年的老東家,LeCun的下一步已然明了——創(chuàng)業(yè)。
做的還是之前在meta被打壓的世界模型。
LeCun透露,自己的公司名叫Advanced Machine Intelligence(AMI),將優(yōu)先專注于世界模型的研究,而且開源……
這一招算是把和meta的矛盾擺在臺面上了。
畢竟眾所周知,自從亞歷山大王走馬上任,meta就開始急轉(zhuǎn)方向盤,從原來的開源先鋒變得越來越封閉。
LeCun更是直言不諱:
FAIR曾對AI研究生態(tài)產(chǎn)生了巨大影響,核心就在于高度開放的理念。但在過去幾年里,包括OpenAI、谷歌、meta都在變得封閉。
所以與其留在meta任人宰割,不如自己出來做喜歡的研究。
而且LeCun強調(diào),如果不公開發(fā)表研究成果,就算不上真正的研究。故步自封,只會陷入自我欺騙,不讓學(xué)術(shù)界檢驗,就很可能只是一廂情愿的妄想。
他曾見過很多類似現(xiàn)象:內(nèi)部對某個項目大肆吹捧,卻沒意識到其他人正在做的事情其實更優(yōu)秀。
更何況meta現(xiàn)在只追求短期項目影響,實則難以做出有價值的貢獻,要突破就要公開發(fā)表成果,這是唯一的途徑。
所以新公司走的是一條和meta現(xiàn)在截然不同的路。
不止要做研究,還會推出圍繞世界模型、規(guī)劃能力的實際產(chǎn)品,AMI的終極目標是成為未來智能系統(tǒng)的主要供應(yīng)商之一。
之所以選擇世界模型,是因為LeCun認為:
構(gòu)建智能系統(tǒng)的正確打開方式就是世界模型。
這也是他多年來一直致力于研究的內(nèi)容,在紐約大學(xué)和meta的多個項目中,已經(jīng)取得了快速發(fā)展,現(xiàn)在也是時候?qū)⒀芯柯涞亓恕?/p>
至于他離職后,自己一手打造的FAIR會駛向何處?LeCun也透露了一二。
首先他表示,亞歷山大王不是他在meta的繼任者。
亞歷山大王的內(nèi)部職責(zé)更偏向于整體運營管理,而非專門的科研人員,超級智能實驗室也由他領(lǐng)導(dǎo),下設(shè)四個部門:
FAIR:專注于長期研究;
TBD實驗室:專注于前沿模型(主要是LLM);
AI基礎(chǔ)設(shè)計部門:負責(zé)軟件基礎(chǔ)設(shè)施;
產(chǎn)品部門:將前沿模型轉(zhuǎn)化為聊天機器人等實際產(chǎn)品,并集成到WhatsApp等平臺。
其中FAIR被交給了Rob Fergus領(lǐng)導(dǎo),他也是LeCun在紐約大學(xué)的同事,目前FAIR內(nèi)部減少了對論文發(fā)表的重視,更傾向于短期項目和為TBD實驗室的前沿模型提供支持。
而LeCun自己目前仍然是FAIR的AI科學(xué)家,不過任期只剩下最后三周。
LeCun的離開,標志著meta以FAIR為代表的、長達十年的“學(xué)院派”研究黃金時代的徹底結(jié)束,也標志著LeCun自己離開LLM轉(zhuǎn)投世界模型的決心。
那么問題來了,為什么LeCun認為世界模型正確、LLM錯誤呢?
要做的世界模型和LLM“根本不是一回事”
核心原因在于,LeCun認為它們本質(zhì)上是為了解決不同的問題而生,二者“根本不是一回事”。
前者是為了處理高維、連續(xù)且嘈雜的數(shù)據(jù)模態(tài)(如圖像或視頻),這些構(gòu)成了與現(xiàn)實世界進行感知和交互的基礎(chǔ);
后者在處理離散、符號化的文本數(shù)據(jù)上表現(xiàn)出色,但不適合處理上述現(xiàn)實世界數(shù)據(jù),LeCun對其評價為“完全糟糕”。
他還斷言,處理圖像視頻類數(shù)據(jù)“就不能使用生成模型”,尤其不能使用那種將數(shù)據(jù)tokenize化為離散符號的生成模型(而這正是大多數(shù)LLM的基礎(chǔ))。
大量經(jīng)驗證據(jù)表明,這根本行不通。
基于此,LeCun堅信僅靠訓(xùn)練文本數(shù)據(jù),AI永遠不可能達到人類智能水平。
他在對比了LLM訓(xùn)練所需的海量文本數(shù)據(jù)(約30萬億tokens)與等量字節(jié)的視頻數(shù)據(jù)(約15000 小時)后發(fā)現(xiàn):
15000小時的視頻信息量相當于一個4歲孩子一生中清醒時接收到的視覺信息總量,但這僅相當于YouTube半小時的上傳量,而且后者信息結(jié)構(gòu)更為豐富、冗余度更高。
這表明,視頻這樣的真實世界數(shù)據(jù),其內(nèi)部結(jié)構(gòu)比文本豐富得多。
正是因為深刻認識到“文本無法承載世界的全部結(jié)構(gòu)與動態(tài)” ,LeCun將目光重新投向了一條更接近人類學(xué)習(xí)本質(zhì)的路徑——讓機器像嬰兒一樣,通過觀察世界的連續(xù)變化,主動構(gòu)建一個內(nèi)在的、可預(yù)測的模型。
而這,就是LeCun眼中世界模型的畫像。
在他看來,世界模型的關(guān)鍵作用就是預(yù)測特定動作或一系列動作所導(dǎo)致的后果,其核心基石為預(yù)測和規(guī)劃。
預(yù)測:能夠基于當前狀態(tài)和潛在行動,推演出未來可能的狀態(tài)(或狀態(tài)的抽象表示);
規(guī)劃:以預(yù)測為基礎(chǔ),通過搜索和優(yōu)化,來確定實現(xiàn)預(yù)設(shè)目標的最佳行動序列。
至于怎樣才能算一個“好的”世界模型,LeCun反駁了需要完美模擬現(xiàn)實的觀點,強調(diào)了抽象的重要性*。
以前很多人認為世界模型必須是“重現(xiàn)世界所有細節(jié)的模擬器”,就像《星際迷航》中的全息甲板那樣。
但LeCun認為,這一想法是“錯誤且有害的”,實踐證明抽象有時候往往更有效。
所有科學(xué)和模擬都通過“發(fā)明抽象”來工作,例如計算流體力學(xué)忽略了分子等底層細節(jié),只關(guān)注宏觀變量(如速度、密度、溫度),而這種抽象能夠帶來“更長期、更可靠的預(yù)測”。
因此,有效的方法是學(xué)習(xí)一個抽象的表示空間,它會“消除輸入中所有不可預(yù)測的細節(jié),包括噪聲”。
由此他也總結(jié)道,世界模型不必是完全的模擬器,“它們是模擬器,但在抽象表示空間中”。
至于具體實現(xiàn)方式,他目前想到了通過聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)在這一抽象表示空間中進行預(yù)測。
而關(guān)于JEPA想法是如何誕生的?LeCun帶我們回顧了20年來“AI如何學(xué)習(xí)”的曲折發(fā)展史。
從無監(jiān)督到JEPA
LeCun坦言,在長達近二十年的時間里,他一直堅信構(gòu)建智能系統(tǒng)的正確路徑是某種形式的無監(jiān)督學(xué)習(xí)。
這就和嬰兒看世界一樣,他們不是被“標注”后才認識世界的。同理,真正的智能也不可能依靠海量人工標注數(shù)據(jù)來構(gòu)建。
因此,他一開始就將重點放在了無監(jiān)督學(xué)習(xí)上,這種“讓機器自己從原始數(shù)據(jù)中發(fā)現(xiàn)規(guī)律”的設(shè)計完美契合了他的理念。
說干就干,他開始嘗試訓(xùn)練自編碼器(Autoencoders)來學(xué)習(xí)表示。
其核心邏輯是:先壓縮,再還原。
比如將一張圖片(輸入數(shù)據(jù))經(jīng)由編碼器壓縮成一個緊湊的、低維的“摘要”(即表示或特征);然后將這個“摘要”經(jīng)由解碼器重構(gòu),還原為一張與原始輸入盡可能相似的圖片。
一旦這個“摘要”能夠近乎完美地還原出原始輸入,那么合理推測它必然抓住了數(shù)據(jù)中最關(guān)鍵、最本質(zhì)的信息。
因此,如果后續(xù)有其他任務(wù)用到這個“摘要”,其表現(xiàn)大概率也不錯。
然而,后來的研究讓LeCun意識到,“堅持表示必須包含所有輸入信息的直覺是錯誤的”。
因為他發(fā)現(xiàn),AI在上述學(xué)習(xí)過程中存在“作弊”現(xiàn)象。
就像數(shù)學(xué)上的“恒等函數(shù)”所代表的含義——輸出只是輸入的另一種形式,AI根本不理解自己所學(xué)的內(nèi)容,它們只是在“抄答案”。
而連理解都沒有,又何談?wù)嬲闹悄苣兀?/p>
于是,LeCun接著引入了“信息瓶頸”(Information Bottleneck)這個核心思想來糾正方向。
其目的是限制表示的信息內(nèi)容,從而迫使系統(tǒng)學(xué)習(xí)更精簡、更有用的表示,也即所謂的抽象能力。
后來他與多位學(xué)生在這一方向上做了大量工作,希望以此預(yù)訓(xùn)練非常深的神經(jīng)網(wǎng)絡(luò)。
然而,隨著深度學(xué)習(xí)迎來歷史轉(zhuǎn)折點——全監(jiān)督學(xué)習(xí)開始崛起,有關(guān)無監(jiān)督或自監(jiān)督學(xué)習(xí)的研究一度被擱置。
當時的情況是這樣的。
在2010年代初期,研究者們面臨一個核心難題:理論上有強大表達能力的深度神經(jīng)網(wǎng)絡(luò),在實踐中卻極其難以訓(xùn)練。 梯度不是消失就是爆炸,網(wǎng)絡(luò)深層的參數(shù)幾乎學(xué)不到東西。
而幾項簡潔卻革命性的工程改進,徹底改變了局面。
一個是ReLU(線性整流函數(shù))的勝利。之前大家普遍使用Sigmoid或Tanh作為激活函數(shù),它們的梯度在兩端會變得非常平緩(飽和區(qū)),導(dǎo)致反向傳播時梯度信號迅速衰減,無法有效更新深層權(quán)重。這就是“梯度消失”問題。
而ReLU的梯度在正區(qū)間恒為1,完美解決了梯度消失問題,計算速度也極快,幾乎憑一己之力讓訓(xùn)練可以深入到數(shù)十甚至上百層。
另一個是歸一化(Normalization)開始發(fā)威。隨著網(wǎng)絡(luò)層數(shù)加深,每一層輸入的分布都會發(fā)生劇烈偏移,這迫使后續(xù)層需要不斷適應(yīng)新的數(shù)據(jù)分布,大大拖慢了訓(xùn)練速度,也使得學(xué)習(xí)率等超參數(shù)設(shè)置變得極其敏感。
而歸一化技術(shù)使得每一層的輸入進入激活函數(shù)前,強行將其歸一化到均值為0、方差為1的標準分布。這就像給每一層安裝了一個“自動穩(wěn)壓器” ,確保了訓(xùn)練流程的平穩(wěn)。
正是這些改進的結(jié)合,使得研究者第一次能夠可靠、高效地訓(xùn)練出非常深的神經(jīng)網(wǎng)絡(luò)。
換言之,深度網(wǎng)絡(luò)的威力終于從理論照進了現(xiàn)實。
而且更幸運的是,技術(shù)的突破還遇上了數(shù)據(jù)的爆炸——包括李飛飛帶頭創(chuàng)建的ImageNet和一些大型文本語料庫等大規(guī)模高質(zhì)量標注數(shù)據(jù)集,越來越多地被創(chuàng)建和公開。
在技術(shù)和數(shù)據(jù)的雙重紅利下, 監(jiān)督學(xué)習(xí)在當時表現(xiàn)良好(比如大名鼎鼎的AlexNet引爆“深度學(xué)習(xí)革命”)。
直到2015年,LeCun開始再次思考如何推動人工智能達到人類水平。他觀察到,當時主流的強化學(xué)習(xí)方法在樣本效率方面極其低效,“無法實現(xiàn)目標”。
因此,他重新將研究重心轉(zhuǎn)向了世界模型和規(guī)劃,即一個能夠預(yù)測其行動后果并能進行規(guī)劃的系統(tǒng)。
他最初的設(shè)想很直接:要建立一個世界模型,那就讓它像物理模擬器一樣,預(yù)測下一幀畫面的每一個像素。
這一想法和當時主流的觀點不謀而合,但事實證明它錯了。
我起初和當時所有人的做法一樣,犯了試圖在像素級別預(yù)測視頻的錯誤,這實際上是不可能的,因為預(yù)測是非決定性的。
因為現(xiàn)實世界往往充滿隨機性。比如預(yù)測一杯水被打翻后,每一顆水珠的確切軌跡和形狀,是不可能的。未來有無限多種可能的像素級狀態(tài)。
如果強行訓(xùn)練一個確定性模型來預(yù)測像素,它為了最小化誤差,通常會學(xué)會輸出一個所有可能未來的模糊平均。這就是為什么早期視頻預(yù)測模型生成的畫面總是模糊不清的原因——它不是預(yù)測,而是“和稀泥”。
而為了解決不確定性,LeCun最初嘗試了潛變量模型。這就像給模型一個“隨機數(shù)骰子”(潛變量),允許它根據(jù)骰子的不同結(jié)果,生成不同的未來畫面。
不過LeCun最終意識到,這本質(zhì)上仍是在像素空間中工作,沒有觸及核心。
直到這時,主打“在抽象表示空間中進行預(yù)測”的JEPA架構(gòu)終于應(yīng)運而生。
其靈感源自LeCun在90年代研究的Siamese Networks,只不過一直面臨一個巨大的難題——防止系統(tǒng)崩潰(Collapse)。
在訓(xùn)練過程中,模型可能將所有輸入映射到單一的點或低維空間,導(dǎo)致嵌入空間中的樣本不可區(qū)分,從而無法有效捕捉樣本間的語義差異。
為了解決這個問題,LeCun依次嘗試了對比學(xué)習(xí)、非對比學(xué)習(xí)的方法,最新進展就是LeJEPA技術(shù)。
LeJEPA核心提出了一種基于各向同性高斯嵌入的自監(jiān)督學(xué)習(xí)方法,通過引入SIGReg正則化,有效解決了表示崩潰問題,并顯著提升了模型的泛化能力。
LeCun認為,“LeJEPA+SIGReg”是訓(xùn)練模型學(xué)習(xí)抽象表示的“非常有前途的技術(shù)集合”,并預(yù)計未來一兩年內(nèi)在這個領(lǐng)域?qū)懈噙M展。
“LLM無法通往AGI,最難的是達到狗的智能水平”
基于上述,LeCun判斷,那些號稱一兩年就能實現(xiàn)AGI的人完全是癡心妄想。
因為現(xiàn)實世界遠比token化的文本復(fù)雜,僅靠現(xiàn)在的LLM路線不可能直接實現(xiàn)AGI。
更何況對于AGI這個概念,LeCun本身就覺得毫無意義。
AGI通用智能指的是人類水平的智能,但事實上人類智能是高度專業(yè)的,比如人類擅長處理現(xiàn)實世界的問題(導(dǎo)航、互動),但在棋類任務(wù)上表現(xiàn)差勁。
甚至在很多任務(wù)上,其實動物比人類更擅長,而人類之所以自詡為“通用”,只是因為人類自認為能處理所有可以想象到的問題,但很多想象之外的問題,人類其實無法做到。
所以與其討論人類水平的智能,不如討論機器是否可以在人類擅長的領(lǐng)域達到或超越人類。
毫無疑問,答案是肯定的。已經(jīng)有機器在部分領(lǐng)域超越人類,但要說全部領(lǐng)域,則需要一個漸進的過程,而非突發(fā)事件。
可預(yù)見的是,在未來幾年,世界模型、規(guī)劃能力這方面或許能取得概念性突破,這將為實現(xiàn)人類水平的AI鋪平道路。
但這還遠遠不夠,還需要很多的基礎(chǔ)概念鋪墊,需要新的理論創(chuàng)新才能突破當前人類智能的瓶頸。
總的來說,人類智能距離人類還很遙遠。
而且并非大家所普遍認知的那樣:“人類智能難以實現(xiàn),那么低一檔的狗級智能或許更容易實現(xiàn)”。
LeCun認為恰恰相反,實現(xiàn)人類智能的過程中,最難的反而是達到狗的智能水平。
能夠達到狗級智能,說明在研究人類智能上已經(jīng)具備了大量的基礎(chǔ)理論,再從狗級智能到人類智能就容易得多。
因為靈長類動物和人類的差異,除了大腦尺寸的增長,關(guān)鍵在語言。語言其實是由大腦中很小的一塊區(qū)域(Wernicke區(qū)和Broca區(qū))負責(zé),而這些區(qū)域在不到100萬年(甚至200萬年)前才進化出,復(fù)雜性并沒有想象中那么高。
現(xiàn)在的LLM就可以很好地扮演這一區(qū)域的角色,將語言編碼為抽象表征,并將思想解碼為文本,而世界模型則相當于大腦的前額葉皮層,負責(zé)規(guī)劃和決策。
所以LeCun的觀點是,單靠LLM或者單靠世界模型是無法實現(xiàn)真正的人類智能的,這需要很多的相關(guān)研究支撐,也需要很多時間完成。
也正因為如此,老爺子LeCun說他還不能退休。
拒絕退休,人生目標是提升人類智能
事實上,今年LeCun就已經(jīng)65歲了。
花甲之年、榮譽等身,LeCun的妻子也希望他退休回歸家庭,但LeCun如今還要大齡創(chuàng)業(yè),據(jù)他所說,原因只有兩個字——“使命”。
大道至簡,LeCun的一生都在追求的,無非是提升人類的智能。
他說,智能是世界上最稀缺的資源,人類和地球的發(fā)展總是受到智能總量的限制,這也是為什么人類會前仆后繼地投入大量資源進行教育、發(fā)展機器。
所以回顧LeCun整個職業(yè)生涯的全部研究項目,都緊緊圍繞著“讓人類更聰明”這一核心目標:
作為教授,LeCun教書育人;作為機器智能的研究者,LeCun希望通過機器輔助人類提升智能;通過社交媒體發(fā)聲,公開傳播AI和科學(xué)知識,讓更多人了解相關(guān)領(lǐng)域……
LeCun表示:
為了這一目標,我愿意繼續(xù)做出貢獻。
不過他也坦然表示,這么多年的職業(yè)生涯里,他也有遺憾。
很多想要做的想法,都沒有足夠的時間去做,結(jié)果同行們比他搶先一步發(fā)表,典型的比如反向傳播算法 (backpropagation)。
他曾發(fā)表過一篇關(guān)于訓(xùn)練多層網(wǎng)絡(luò)的目標傳播算法論文,那時他就衍生想到了反向傳播的核心思路,但受時間和精力限制沒能做成,后來David Rumelhart和Hinton發(fā)表了相關(guān)論文,并引用了LeCun的論文。
類似的事情還有很多,但LeCun并不后悔。
在他的視角里,一個好的想法的涌現(xiàn)往往是復(fù)雜的,很少有人能在完全孤立的情況下提出全新的想法。
這在科學(xué)界里再正常不過,所以不能只把功勞歸結(jié)于第一個產(chǎn)生想法的人,那些將想法落地的人同樣需要巨大的努力。
或許正因如此,他才始終堅持開源的技術(shù)路徑——在他看來,科學(xué)的進步從來都不是少數(shù)天才的靈光乍現(xiàn),而是無數(shù)人思想在開放交流中的不斷疊加延伸。
因此再回頭看LeCun的離職,其實并不突兀。
當meta已經(jīng)不再是那個鼓勵長期開放研究的“科學(xué)烏托邦”,LeCun的離開,幾乎成為一種必然。










