在華為全聯接大會上,華為輪值董事長徐直軍詳細介紹了公司在人工智能算力領域的最新戰略布局與產品規劃。他指出,算力不僅是人工智能發展的核心,更是中國在這一領域取得突破的關鍵。自2018年推出昇騰310芯片、2019年發布昇騰910芯片以來,華為持續加大在AI基礎算力研發上的投入,致力于為全球AI算力構建堅實基礎。
面向未來,華為已規劃三個系列的昇騰芯片,包括950、960和970系列。其中,昇騰950系列包含950PR和950DT兩顆芯片,分別計劃于2026年第一季度和第四季度上市。昇騰960芯片將于2027年第四季度推出,而昇騰970芯片預計在2028年第四季度面世。與前代產品相比,昇騰950在技術上實現了多項突破,新增支持FP8/MXFP8/HIF8、MXFP4等低精度數據格式,算力分別達到1 PFLOPS和2 PFLOPS,顯著提升了訓練與推理效率。同時,向量算力大幅提升,內存訪問粒度更精細,互聯帶寬提升至2 TB/s,并搭載了自研的HBM技術HIBL1.0和HIZQ2.0。
在通用計算領域,華為還規劃了鯤鵬950與鯤鵬960芯片,分別計劃于2026年第四季度和2028年第一季度上市。這兩款芯片將圍繞支持超節點和更高性能持續演進,以滿足不斷增長的算力需求。華為正式發布了面向超節點的互聯協議——靈衢,并開放了靈衢2.0技術規范。自2019年啟動研究以來,靈衢1.0已開啟商用驗證,此次靈衢2.0的開放旨在邀請產業界共同研發相關產品和部件,共建開放生態。
超節點作為智算發展的重要趨勢,其物理上由多臺機器組成,但邏輯上以一臺機器進行學習、思考和推理。華為在此次大會上發布了Atlas 950 SuperPoD和Atlas 960 SuperPoD兩款超節點產品。其中,Atlas 950超節點基于昇騰950芯片,支持8192卡規模,由128個計算柜和32個互聯柜組成,占地面積約1000平方米,FP8算力達8EFlops,FP4算力達16EFlops,互聯帶寬高達16 PB,相當于當前全球互聯網總帶寬的10倍以上。這款超節點將于2026年第四季度上市,徐直軍強調,它將成為2026至2028年間全球算力最強的AI超節點。
Atlas 960超節點則支持15488卡,由176個計算柜和44個互聯柜組成,算力、內存和帶寬在Atlas 950基礎上再度翻番,計劃于2027年第四季度上市。徐直軍特別提到,超節點的價值不僅體現在制造、通信和計算等傳統業務領域,還在互聯網產業廣泛應用的推薦系統方面發揮著重要作用。華為基于泰山950和Atlas 950可構建混合超節點,為下一代深度推薦系統開創全新的架構方向。
通過超大帶寬、超低時延互聯技術及超大內存容量,混合超節點能夠形成PB級別的共享內存池,支持超大規模推薦系統嵌入表,從而承載超高維度的用戶特征。同時,其具備的超大AI算力可支持低時延推理和高效特征檢索。然而,大規模超節點在提升智能計算和通用計算能力的同時,也對互聯技術提出了巨大挑戰。例如,如何實現8192卡乃至15488卡規模的高效可靠互聯,成為業界亟待突破的技術難題。
徐直軍指出,當前產業界許多已發布的超節點方案未能實現大規模部署,其核心瓶頸并非芯片本身,而是互聯技術尚未成熟。具體來說,一是如何實現長距離且高可靠的互聯。大規模超節點涉及多個機柜,連接距離可能長達1000至2000米。當前電互聯技術在高速信號傳輸時距離受限,最多僅支持兩個機柜互聯;而光互聯技術雖能滿足長距離連接需求,卻無法達到單一計算機系統所要求的高可靠性。二是如何實現超大帶寬與超低時延。當前跨機柜卡間互聯帶寬與超節點需求存在5倍以上差距,時延最好僅能達到3微秒左右,與Atlas 950/960設計目標仍有24%的差距。
由于受到外部制裁,華為無法采用全球最先進的芯片制程工藝。因此,必須通過超節點架構將多個芯片組合成一臺邏輯統一的計算機,以系統級創新彌補單芯片性能差距。依托30多年積累的技術能力,華為通過系統性創新攻克了上述互聯技術難題,完全滿足了Atlas 950/960超節點的設計需求,并為未來實現萬卡級超節點奠定了技術基礎。徐直軍表示,基于全球最強算力的超節點和集群,華為對于為人工智能的長期快速發展提供可持續且充裕算力充滿信心。