在近期舉辦的華為全聯接大會上,華為憑借一系列創新成果成為焦點,尤其是超節點架構的發布,為AI算力領域帶來了革命性突破。此次華為不僅推出了覆蓋數據中心到工作站的全場景超節點新品,更以開源開放的姿態,為AI算力生態建設提供了全新思路。
華為此次發布的超節點新品陣容強大,其中Atlas 950 SuperPoD專為超大型AI計算任務設計,實現了從基礎器件到光電技術的系統級創新。其采用正交架構,實現了零線纜電互聯,液冷接頭浮動盲插設計確保零漏液,獨創材料和工藝使光模塊液冷可靠性提升一倍。創新的UB-Mesh遞歸直連拓撲網絡架構,支持單板內、單板間和機架間的NPU全互聯,最大可實現8192卡無收斂全互聯,性能遠超同類產品。與英偉達計劃明年下半年上市的NVL144相比,Atlas 950超節點在規模、總算力、內存容量、互聯帶寬等方面均具有顯著優勢,即便對標英偉達2027年計劃上市的NVL576,也依然保持領先。
Atlas 850作為業界首個企業級風冷AI超節點服務器,內部搭載8張昇騰NPU,可有效滿足企業模型后訓練、多場景推理等需求。其支持多柜靈活部署,最大可形成128臺1024卡的超節點集群,是目前業內唯一可在風冷機房實現超節點架構的算力集群,企業無需改造現有風冷機房即可部署。
Atlas 350標卡采用最新的昇騰950PR芯片,向量算力提升2倍,支持更細粒度的Cacheline訪問,在推薦推理場景可實現2.5倍性能提升,且單卡即可運行。該標卡支持靈衢端口互聯,實現算力、內存等資源池化,讓更大參數模型、更低時延應用可以在標卡上實現。
TaiShan 950 SuperPoD是華為推出的業界首款通算超節點,具備百納秒級超低時延、Tb級超大帶寬和內存池化能力,能大幅提升數據庫、虛機熱遷移和大數據場景等業務性能,為通算性能提升開辟全新路徑。
在發布超節點新品的同時,華為選擇了全面的開放和開源。硬件層面,華為宣布全面開放超節點技術,開放靈衢協議和超節點參考架構,允許產業界基于技術規范自研相關產品或部件。同時,全面開放超節點基礎硬件,包括NPU模組、風冷刀片、液冷刀片、AI標卡、CPU主板和級聯卡等不同形態的硬件,方便客戶和伙伴進行增量開發。
軟件層面,操作系統靈衢組件將全部開源,組件代碼將陸續合入openEuler等多個上游操作系統開源社區。用戶可根據實際需求,將部分或全部源代碼集成到現有操作系統中,自行迭代維護版本,也可將整個組件直接合入現有操作系統,未來演進與開源社區版本同步。昇騰CANN全面開源開放,Mind系列組件也同步開源,并支持PyTorch、vLLM等業界開源社區,加速開發者自主創新。
華為之所以選擇開源,一方面是為了與產業界、開發者社區基于超節點架構自研相關產品或部件、自定義調試調優、共享技術紅利,加速產業協同發展;另一方面,有利于消費者按需取用、降低適配成本,打造面向行業的超節點場景化解決方案。
華為董事、ICT BG CEO楊超斌表示,華為將圍繞超節點架構持續創新,讓超節點技術不僅用于大型數據中心,也可用于企業級的數據中心和小型工作站。同時,堅持硬件開放,支持各個伙伴靈活打造面向各個行業的超節點場景化解決方案;堅持軟件開源,讓開發者靈活高效創新,共建繁榮生態。
這意味著超節點技術不再是少數大型數據中心的專屬利器,而是一個開放共享的算力生態。每個行業、每個企業、每位開發者都能根據自身需求,靈活搭建自己的算力“高速路”,無論是大型模型訓練、復雜推理任務,還是企業級應用場景,用戶都能按需獲取硬件和軟件能力,實現算力資源的高效利用和靈活擴展。
目前,超節點已廣泛服務于互聯網、金融、運營商、電力、制造等行業,幫助各類企業提升算力效率和業務能力。通過將各個計算單元、存儲單元等組件通過大帶寬、低時延互聯網絡平等互聯,統一通信協議,省去額外協議轉換開銷,統一內存編址,實現全局資源池化,使有效算力能夠隨集群規模線性擴展。同時,通過靈衢協議的高可靠機制,并融入華為在通信上幾十年的積累,大幅提升集群可靠性。
隨著多芯片互聯、大規模計算節點取代單芯片成為行業共識,傳統集群通過“服務器堆疊+以太網聯接”擴展算力的方式暴露出帶寬受限、時延高、效率低、可靠性難以保障等問題。華為以超節點架構為“路基”,通過靈衢互聯協議,把分散的服務器深度互聯,讓集群像一臺機器一樣學習、推理與協作,為AI大模型和行業應用提供真正高效、穩定、可擴展的算力底座。
靈衢(UnifiedBus)是一個面向超節點的互聯協議,依托該協議的超節點架構具備資源池化、線性擴展、長穩可靠等關鍵特性,實現計算、存儲單元的大帶寬和低時延互聯,解決了傳統集群規模上升可靠性降低的痛點。而且靈衢是開源的,協議全面公開,大家可以因地制宜,在不同路況搭建合適的車道,自由開發系統、調度軟件,促進生態繁榮。
AI算力生態本質上是“修建數據傳輸與調度的高速路”。以英偉達的NVLink為例,它像“工業園內部高速”,服務GPU單機或機架內的數據傳輸,但采用專有協議而相對封閉,編譯、傳輸、通信、驅動等規則均由其獨家制定,無法與其他生態互聯互通。而華為通過靈衢協議與超節點架構,構建了一套統一標準的“綜合交通樞紐”,從卡間互聯的“超高速磁懸浮”,到機柜內互聯的“城市環線”,再到機柜間互聯的“全國高鐵網”,均采用同一套協議規則,數據可全程暢通,所有計算、內存、存儲資源被打散、池化,系統能自動匹配最高效的調度路徑,實現全局資源優化。
華為不僅自己“修路”,還將技術標準向全社會公開,邀請硬件廠商、芯片企業共同參與,按統一標準研發硬件、適配產品,打破“園區式”封閉生態的隔閡,推動整個國產算力生態做大做強。此前,AMD、Intel、Apple等企業發布的開源UALink,雖有類似開放嘗試,但受限于軟硬件積淀不足,難以支撐大規模擴展的算力網絡。
當前,上下文長度和訓練數據量激增,模型迭代速度加快、多任務協同與多輪推理、摩爾定律失效,行業對低時延等一系列要求,促使多芯片互聯、大規模計算成為必然。而想充分釋放百億億次計算和萬億參數AI模型的潛力,關鍵在于服務器集群中每個NPU間能否實現快速、無縫的通信。華為的靈衢協議與超節點架構,為開放硬件與開源軟件提供了可行方案,也在真正的可用性上提供了另一種選擇。
華為即將上線的Atlas 950超節點、Atlas 960超節點、TaiShan 950超節點以及Atlas 950 SuperCluster 50萬卡集群和Atlas 960 SuperCluster,都基于靈衢實現了更大的算力規模、更高的帶寬和更低的時延。對比當前全球最大集群xAI Colossus,Atlas 950 SuperCluster的規模是其2.5倍,算力是其1.3倍,堪稱全球最強算力集群。Atlas 950超節點較英偉達產品的性能也毫不遜色。
華為以“開放”推動產業普惠,讓不同規模、需求的用戶都能搭建自己的“AI高速路”,參與全場景算力生態建設,最終實現硬件、軟件、算法的共建共贏。對于中國AI算力生態乃至整個AI產業來說,這是一種安全可靠可持續的選擇,把AI建設在自己的基座之上,形成AI時代的標準和話語權。而且中國擁有最大的市場,這種生態一旦閉環,將會形成全新的創新飛輪。