9月24日,在杭州召開的云棲大會上,阿里巴巴集團CEO、阿里云智能集團董事長兼CEO吳泳銘發(fā)表主旨演講,他認為實現(xiàn)通用人工智能AGI已是確定性事件,但這只是起點,終極目標是發(fā)展出能自我迭代、全面超越人類的超級人工智能ASI。

吳泳銘首次系統(tǒng)闡述了通往ASI的三階段演進路線:
第一階段:“智能涌現(xiàn)”,AI通過學習海量人類知識具備泛化智能。
第二階段:“自主行動”,AI掌握工具使用和編程能力以“輔助人”,這是行業(yè)當前所處的階段。
第三階段:“自我迭代”,AI通過連接物理世界并實現(xiàn)自學習,最終實現(xiàn)“超越人”。
為實現(xiàn)這一目標,吳泳銘明確了阿里云的戰(zhàn)略路徑。阿里云作為“全棧人工智能服務商”,將通過兩大核心路徑實施AI戰(zhàn)略:第一,通義千問堅定開源開放路線,致力于打造“AI時代的Android”;其二,構建作為“下一代計算機”的超級AI云,為全球提供智能算力網(wǎng)絡。
為支撐這一宏大愿景,吳泳銘表示,阿里巴巴正在積極推進三年3800億的AI基礎設施建設計劃,并將會持續(xù)追加更大的投入。根據(jù)遠期規(guī)劃,為了迎接ASI時代的到來,對比2022年這個GenAI的元年,2032年阿里云全球數(shù)據(jù)中心的能耗規(guī)模將提升10倍。
以下為演講全文——
開始演講之前,我想特別感謝一下支持整個中國乃至全球科技行業(yè)的開發(fā)者朋友。今天是云棲大會的10周年,云棲大會起源于阿里云的開發(fā)者大會,是廣大開發(fā)者推動了中國乃至全球的云計算、AI和科技行業(yè)的發(fā)展。所以,在演講之前,我想特別向開發(fā)者們致以最高的謝意。
當前的世界,一場由人工智能驅(qū)動的智能化革命剛剛開始。過去幾百年,工業(yè)革命通過機械化放大了人類的體能,信息革命通過數(shù)字化放大了人類的信息處理能力。而這一次,智能化革命將遠超我們的想象。通用人工智能AGI不僅會放大人類智力,還將解放人類的潛能,為超級人工智能ASI的到來鋪平道路。
最近的三年,我們已經(jīng)清晰地感受到它的速度。幾年時間,AI的智力從一個高中生迅速提升到博士生的水平,還能拿到國際IMO的金牌。AI Chatbot是人類有史以來用戶滲透率最快的功能。AI 的行業(yè)滲透速度超過歷史上所有技術。Tokens 的消耗速度兩三個月就翻一番。最近一年,全球AI行業(yè)的投資總額已經(jīng)超過4000億美元,未來5年全球AI的累計投入將超過4萬億美元,這是歷史上最大的算力和研發(fā)投入,必然將會加速催生更強大的模型,加速AI應用的滲透。
實現(xiàn)AGI——一個具備人類通用認知能力的智能系統(tǒng),現(xiàn)在看來已成為確定性事件。然而,AGI并非AI發(fā)展的終點,而是全新的起點。AI不會止步于AGI,它將邁向超越人類智能、能夠自我迭代進化的超級人工智能(ASI)。
AGI的目標是將人類從80%的日常工作中解放出來,讓我們專注于創(chuàng)造與探索。而ASI作為全面超越人類智能的系統(tǒng),將可能創(chuàng)造出一批“超級科學家”和"全棧超級工程師"。ASI將以難以想象的速度,解決現(xiàn)在未被解決的科學和工程問題,比如攻克醫(yī)學難題、發(fā)明新材料、解決可持續(xù)能源和氣候問題,甚至星際旅行等等。ASI將以指數(shù)級的速度推動科技的飛躍,引領我們進入一個前所未有的智能時代。
我們認為,通往ASI之路將經(jīng)歷三個階段:
第一階段是“智能涌現(xiàn)”,特征是“學習人”。過去幾十年的互聯(lián)網(wǎng)發(fā)展,為智能涌現(xiàn)提供了基礎。互聯(lián)網(wǎng)將人類歷史上幾乎所有的知識都數(shù)字化了。這些語言文字承載的信息,代表了人類知識的全集。基于此,大模型首先通過理解全世界的知識集合,具備了泛化的智能能力,涌現(xiàn)出通用對話能力,可以理解人類的意圖,解答人類的問題,并逐漸發(fā)展出思考多步問題的推理能力。現(xiàn)在,我們看到AI已經(jīng)逼近人類各學科測試的頂級水平,比如國際數(shù)學奧賽的金牌水平。AI逐漸具備了進入真實世界、解決真實問題、創(chuàng)造真實價值的可能性。這是過去幾年的主線。
第二個階段是“自主行動”,特征是“輔助人”。這個階段,AI不再局限于語言交流,而是具備了在真實世界中行動的能力。AI可以在人類的目標設定下,拆解復雜任務,使用和制作工具,自主完成與數(shù)字世界和物理世界的交互,對真實世界產(chǎn)生巨大影響。這正是我們當下所處的階段。
實現(xiàn)這一跨越的關鍵,首先是大模型具備了Tool Use能力,有能力連接所有數(shù)字化工具,完成真實世界任務。人類加速進化的起點是開始創(chuàng)造和使用工具,現(xiàn)在大模型也具備了使用工具的能力。通過Tool Use,AI可以像人一樣調(diào)用外部軟件、接口和物理設備,執(zhí)行復雜的真實世界任務。這個階段,由于AI能夠輔助人類極大提高生產(chǎn)力,它將快速的滲透到物流、制造、軟件、商業(yè)、生物醫(yī)療、金融、科研等幾乎所有行業(yè)領域。
其次,大模型Coding能力的提升,可以幫助人類解決更復雜的問題,并將更多場景數(shù)字化。現(xiàn)在的Agent還比較早期,解決的主要是標準化和短周期的任務。要想讓Agent能解決更復雜、更長周期任務,最關鍵的是大模型的Coding能力。因為Agent可以自主Coding,理論上就能解決無限復雜的問題,像工程師團隊一樣理解復雜需求并自主完成編碼、測試。發(fā)展大模型Coding能力是通往AGI的必經(jīng)之路。
未來,自然語言就是AI時代的源代碼,任何人用自然語言就能創(chuàng)造自己的Agent。你只需要輸入母語,告訴AI你的需求,AI就能自己編寫邏輯、調(diào)用工具、搭建系統(tǒng),完成數(shù)字世界的幾乎所有工作,并通過數(shù)字化接口來操作所有物理設備。 未來,也許會有超過全球人口數(shù)量的Agent和機器人與人類一起工作,對真實世界產(chǎn)生巨大影響。在這個過程中,AI就能連接真實世界的絕大部分場景和數(shù)據(jù),為未來的進化創(chuàng)造條件。
隨后AI將進入第三個階段——“自我迭代”,特征是“超越人”。這個階段有兩個關鍵要素:
第一、 AI連接了真實世界的全量原始數(shù)據(jù)
目前AI的進步最快的領域是內(nèi)容創(chuàng)作、數(shù)學和Coding領域。我們看到這三個領域有明顯的特征。這些領域的知識100%是人類定義和創(chuàng)造的,都在文字里,AI可以100%理解原始數(shù)據(jù)。但是對于其他領域和更廣泛的物理世界,今天的AI接觸到的更多是人類歸納之后的知識,缺乏廣泛的、與物理世界交互的原始數(shù)據(jù)。這些信息是有局限的。AI要實現(xiàn)超越人類的突破,就需要直接從物理世界獲取更全面、更原始的數(shù)據(jù)。
舉一個簡單的例子,比如一家汽車公司的CEO要迭代明年的產(chǎn)品,大概率會通過無數(shù)次的用戶調(diào)研或者內(nèi)部的討論來決定下一款汽車將要具備什么樣的功能,與競對相比要實現(xiàn)哪些方面的長板,保留什么方面的能力。現(xiàn)在AI要去做還是很難的,核心點在于它所獲得的數(shù)據(jù)和信息,全都是調(diào)研來的二手數(shù)據(jù)。如果有一天AI有機會,能夠連接這款汽車的所有的資料和數(shù)據(jù),它創(chuàng)造出來的下一款汽車會遠遠超過通過無數(shù)次頭腦風暴所創(chuàng)作出來的。這只是人類世界當中的一個例子,更何況更復雜的物理世界,遠遠不是通過人類知識歸納就能夠讓AI理解的。
所以AI要進入到一個更高的階段,就需要直接從物理世界獲取更全面、更原始的數(shù)據(jù),就像在自動駕駛的早期階段,只靠人類的總結,Rule-based的方法去實現(xiàn)自動駕駛,無法實現(xiàn)很好的效果。新一代的自動駕駛,大部分采用端到端的訓練方法,直接從原始的車載攝像頭數(shù)據(jù)中學習,實現(xiàn)了更高水平的自動駕駛能力。即便我們現(xiàn)在看起來相對簡單的自動駕駛問題,僅依靠人類歸納的知識和規(guī)則,也無法解決,更何況整個復雜的物理世界。只是讓AI學習人類歸納的規(guī)律,是遠遠不夠的。只有讓AI與真實世界持續(xù)互動,獲取更全面、更真實、更實時的數(shù)據(jù),才能更好的理解和模擬世界,發(fā)現(xiàn)超越人類認知的深層規(guī)律,從而創(chuàng)造出比人更強大的智能能力。
第二、Self-learning自主學習
隨著AI滲透更多的物理世界場景,理解更多物理世界的數(shù)據(jù),AI 模型和agent能力也會越來越強,有機會為自己模型的升級迭代搭建訓練infra、優(yōu)化數(shù)據(jù)流程和升級模型架構,從而實現(xiàn) Self learning。這會是AI發(fā)展的關鍵時刻。
隨著能力的持續(xù)提升,未來的模型將通過與真實世界的持續(xù)交互,獲取新的數(shù)據(jù)并接收實時反饋,借助強化學習與持續(xù)學習機制,自主優(yōu)化、修正偏差、實現(xiàn)自我迭代與智能升級。每一次交互都是一次微調(diào),每一次反饋都是一次參數(shù)優(yōu)化。當經(jīng)過無數(shù)次場景執(zhí)行和結果反饋的循環(huán),AI將自我迭代出超越人類的智能能力,一個早期的超級人工智能(ASI)便會成型。
一旦跨過某個奇點,人類社會就像按下了加速鍵,科技進步的速度將超越我們的想象,新的生產(chǎn)力爆發(fā)將推動人類社會進入嶄新的階段。這條通往超級人工智能的道路,在我們的眼前正在日益清晰。隨著AI技術的演進和各行各業(yè)需求爆發(fā),AI也將催生IT產(chǎn)業(yè)的巨大變革。
我們的第一個判斷是:大模型是下一代的操作系統(tǒng)。我們認為大模型代表的技術平臺將會替代現(xiàn)在OS的地位,成為下一代的操作系統(tǒng)。未來,幾乎所有鏈接真實世界的工具接口都將與大模型進行鏈接,所有用戶需求和行業(yè)應用將會通過大模型相關工具執(zhí)行任務,LLM將會是承載用戶、軟件 與 AI計算資源交互調(diào)度的中間層,成為AI時代的OS。來做一些簡單的類比:自然語言是AI時代的編程語言,Agent就是新的軟件,Context是新的Memory,大模型通過MCP這樣的接口,連接各類Tools和Agent類似PC時代的總線接口,Agent之間又通過A2A這樣的協(xié)議完成多Agent協(xié)作類似軟件之間的API接口。
大模型將會吞噬軟件。大模型作為下一代的操作系統(tǒng),將允許任何人用自然語言,創(chuàng)造無限多的應用。未來幾乎所有與計算世界打交道的軟件可能都是由大模型產(chǎn)生的Agent,而不是現(xiàn)在的商業(yè)軟件。潛在的開發(fā)者將從幾千萬變成數(shù)億規(guī)模。以前由于軟件開發(fā)的成本問題,只有少量高價值場景才會被工程師開發(fā)出來變成商業(yè)化的軟件系統(tǒng)。未來所有終端用戶都可以通過大模型這樣的工具來滿足自己的需求。
模型部署方式也會多樣化,它將運行在所有設備上。現(xiàn)在主流的調(diào)用模型API的方式,來使用模型只是初級階段,其實看起來非常原始。類似大型主機時代的分時復用階段,每個人只有一個終端連接上大型主機分時復用。這種方式無法解決數(shù)據(jù)持久化,缺乏長期記憶,實時性不夠,隱私無法解決,可塑性也不夠。未來模型將運行在所有計算設備中,并具備可持久記憶,端云聯(lián)動的運行狀態(tài),甚至可以隨時更新參數(shù),自我迭代,類似我們今天的OS運行在各種環(huán)境之中。
正是基于這個判斷,我們做了一個戰(zhàn)略選擇:通義千問選擇開放路線,打造AI時代的Android。我們認為在LLM時代,開源模型創(chuàng)造的價值和能滲透的場景,會遠遠大于閉源模型。我們堅定選擇開源,就是為了全力支持開發(fā)者生態(tài),與全球所有開發(fā)者一起探索AI應用的無限可能。
我們的第二個判斷:超級AI 云是下一代的計算機。
大模型是運行于 AI Cloud之上新的OS。這個OS可以滿足任何人的需求。每個人都將擁有幾十甚至上百個Agent,這些Agent 24小時不間斷地工作和協(xié)同,需要海量的計算資源。
數(shù)據(jù)中心內(nèi)的計算范式也在發(fā)生革命性改變,從CPU為核心的傳統(tǒng)計算,正在加速轉(zhuǎn)變?yōu)橐?GPU為核心的 AI 計算。新的AI計算范式需要更稠密的算力、更高效的網(wǎng)絡、更大的集群規(guī)模。
這一切都需要充足的能源、全棧的技術、數(shù)百萬計的GPU和CPU,協(xié)同網(wǎng)絡、芯片、存儲、數(shù)據(jù)庫高效運作,并且24 小時處理全世界各地的需求。這需要超大規(guī)模的基礎設施和全棧的技術積累,只有超級AI云才能夠承載這樣的海量需求。未來,全世界可能只會有5-6個超級云計算平臺。
在這個新時代,AI將會替代能源的地位,成為最重要的商品,驅(qū)動千行百業(yè)每天的工作。絕大部分AI能力將以Token的形式在云計算網(wǎng)絡上產(chǎn)生和輸送。Token就是未來的電。在這個嶄新的時代,阿里云的定位是全棧人工智能服務商,提供世界領先的智能能力和遍布全球的AI云計算網(wǎng)絡,向全球各地提供開發(fā)者生態(tài)友好的AI服務。
我們有全球領先的大模型——通義千問。通義千問開源了300多款模型,覆蓋了全模態(tài)、全尺寸,是最受全球開發(fā)者歡迎的開源模型。截至目前,通義千問全球下載量超6億次,衍生模型超17萬個,是全球第一的開源模型矩陣,可以說是滲透計算設備最廣泛的大模型。
同時,阿里云提供一站式模型服務平臺百煉,支持模型定制化以及Agent快速開發(fā),同時提供AgentBay這樣的Agent運行環(huán)境、靈碼/Qoder等一系列開發(fā)者套件,讓開發(fā)者可以方便地使用模型能力和創(chuàng)建使用Agent。
其次,阿里云運營著中國第一、全球領先的AI基礎設施和云計算網(wǎng)絡,是全球少數(shù)能做到軟硬件垂直整合的超級AI云計算平臺之一。在硬件和網(wǎng)絡層面,阿里云自研的核心存儲系統(tǒng)、網(wǎng)絡架構、計算芯片,構成了阿里云大型計算集群最堅實的底座。
阿里云正在全力打造一臺全新的AI超級計算機,它同時擁有最領先的AI基礎設施和最領先的模型,可以在基礎架構設計和模型架構上協(xié)同創(chuàng)新,從而確保在阿里云上調(diào)用和訓練大模型時,能達到最高效率,成為開發(fā)者最好用的AI云。
AI行業(yè)發(fā)展的速度遠超我們的預期,行業(yè)對AI基礎設施的需求也遠超我們的預期。我們正在積極推進三年3800億的AI基礎設施建設計劃,并將會持續(xù)追加更大的投入。從現(xiàn)在我們看到的AI行業(yè)遠期發(fā)展以及客戶需求角度來看,為了迎接ASI時代的到來,對比2022年這個GenAI的元年,2032年阿里云全球數(shù)據(jù)中心的能耗規(guī)模將提升10倍。這是我們的一個遠期規(guī)劃,我們相信通過這樣的飽和式投入,能夠推動AI行業(yè)的發(fā)展,迎接ASI時代的到來。
超級人工智能到來之后,人類和AI會是怎么樣的協(xié)作關系?
未來的AI越來越強,甚至超越人類智能能力的ASI誕生,那我們?nèi)祟惡虯I將如何相處?我們對未來充滿樂觀,超級人工智能到來之后,人類和AI是一個嶄新的協(xié)同方式。程序員可能已經(jīng)感受到了,我們可以下一個指令,通過Coding這樣的工具,讓它晚上12個小時就能夠創(chuàng)造出一個我們需要的系統(tǒng),從這里我們看到了未來人和AI怎么樣去共同協(xié)同的一種早期的雛形。所以我們覺得,從Vibe Coding到Vibe Working。未來,每個家庭、工廠、公司,都會有眾多的Agent和機器人24小時為我們服務。也許,未來每個人都需要使用100張GPU芯片為我們工作。
正如電曾經(jīng)放大了人類物理力量的杠桿,ASI將指數(shù)級放大人類的智力杠桿。過去我們消耗10個小時的時間,獲得10小時的結果。未來,AI可以讓我們10小時的產(chǎn)出乘以十倍、百倍的杠桿。回顧歷史,每次技術革命解鎖更多生產(chǎn)力之后,都會創(chuàng)造出更多的新需求。人會變得比歷史上任何時候都強大。
我想強調(diào),一切才剛剛開始。AI 將重構整個基礎設施、軟件和應用體系,成為真實世界的核心驅(qū)動力,掀起新一輪智能化革命。阿里巴巴將持續(xù)投入,與合作伙伴和客戶一起,讓AI 深入產(chǎn)業(yè)、共創(chuàng)未來。祝大家度過一個充實愉快的云棲大會,謝謝大家!