華為輪值董事長徐直軍在近日舉行的行業峰會上宣布,昇騰芯片未來三年將進入高速迭代期,通過技術突破持續推動人工智能算力躍升。根據規劃,華為將推出Ascend 950、960、970三大系列芯片,實現算力每年翻倍增長,同時構建超大規模算力集群,支撐從千億參數到十萬億參數模型的訓練需求。
徐直軍指出,盡管部分技術路徑降低了算力消耗,但邁向通用人工智能(AGI)和物理世界人工智能(物理AI)仍需算力作為核心支撐。華為此次規劃的昇騰芯片路線圖顯示,Ascend 950系列已進入量產階段,該系列包含950PR和950DT兩顆芯片,采用統一架構設計,通過引入FP8/MXFP8等低精度計算格式,將算力提升至1P到2P區間,同時支持自研HiF8格式,在保持接近FP16精度的前提下顯著提升能效。
技術升級方面,Ascend 950系列實現了四大突破:向量計算單元占比大幅提升,通過雙編程模型新同構設計優化計算效率;內存訪問顆粒度精細化,降低數據搬運開銷;互聯帶寬達2TB/s,較前代提升2.5倍;集成自研HiBL1.0和HiZQ 2.0兩種高帶寬內存,與芯片核心直接封裝。這些改進使單芯片性能較前代提升數倍,特別在向量計算和內存帶寬等關鍵指標上形成代際優勢。
按照規劃,2027年第四季度將推出Ascend 960芯片,該產品在算力密度、內存帶寬等核心參數上實現全面翻倍,并首次支持自研HiF4數據格式。徐直軍強調,HiF4在4bit精度下可提供優于業界FP4方案的推理精度,同時將推理吞吐量提升30%以上。正在研發中的Ascend 970芯片則計劃在FP4/FP8算力、互聯帶寬等指標上再翻一番,內存訪問帶寬增幅不低于1.5倍。
基于新一代芯片,華為同步構建了超節點與集群產品體系。現場發布的Atlas 950超節點采用靈衢2.0互聯協議,通過總線級互聯架構實現萬卡級設備協同,邏輯上作為單一計算單元運行。該架構解決了長距離電互聯的可靠性問題,同時將互聯時延壓縮至納秒級。徐直軍透露,基于靈衢1.0的Atlas 900系統已在全球部署超300套,2.0版本在帶寬和時延指標上實現代際優化。
在集群產品領域,華為推出的Atlas 950 SuperCluster以2.5倍于xAI Colossus的規模和1.3倍的算力,成為全球最大規模的單體算力集群。該系統可穩定支持千億至十萬億參數模型的訓練任務,特別在稀疏化大模型訓練中展現出顯著優勢。2027年底,基于Atlas 960超節點的百萬卡級集群將投入商用,其計算密度和能效比預計將再創新高。
為推動產業生態發展,華為宣布開放靈衢2.0技術規范,歡迎合作伙伴基于該協議開發兼容設備。徐直軍表示,通過標準化互聯接口和協同協議,可降低超節點系統的構建門檻,加速AI基礎設施的規模化部署。目前,靈衢協議已形成涵蓋芯片、服務器、網絡設備的完整技術體系,為構建開放算力生態奠定基礎。