在華為全聯接大會上,華為輪值董事長徐直軍就公司人工智能算力領域的戰略布局與產品規劃展開深入分享。他指出,算力始終是人工智能發展的核心要素,對中國人工智能發展而言更是重中之重。自2018年推出昇騰310芯片、2019年發布昇騰910芯片后,華為持續深耕AI基礎算力研發創新,致力于為全球AI算力筑牢根基。
面向未來,華為在芯片領域動作頻頻。徐直軍宣布,華為已規劃三個系列的昇騰芯片,涵蓋950、960和970系列。其中,昇騰950系列包含950PR和950DT兩顆芯片,950PR將于2026年一季度面市,950DT則在2026年四季度登場;昇騰960芯片預計2027年四季度上市,昇騰970芯片計劃于2028年四季度推出。與上一代相比,昇騰950實現了多項關鍵技術突破:新增支持FP8/MXFP8/HIF8、MXFP4等低精度數據格式,算力大幅提升至1 PFLOPS和2 PFLOPS,顯著提升訓練與推理效率;向量算力大幅增強,支持更精細粒度內存訪問;互聯帶寬提升2.5倍,達到2 TB/s;還搭載了自研HBM技術HIBL1.0和HIZQ2.0。
在通用計算領域,華為也推出了鯤鵬950與鯤鵬960兩款芯片,分別計劃于2026年第四季度和2028年第一季度上市,持續圍繞支持超節點和提升性能進行演進。
同時,華為正式發布面向超節點的互聯協議——靈衢,并開放靈衢2.0技術規范。自2019年啟動研究以來,靈衢1.0已開啟商用驗證,此次靈衢2.0的開放,旨在邀請產業界基于該技術研發相關產品和部件,共同構建靈衢開放生態。
超節點作為智算發展的重要趨勢,受到華為高度關注。超節點在物理上由多臺機器組成,但在邏輯上可視為一臺機器進行學習、思考和推理。華為此次發布了Atlas 950 SuperPoD和Atlas 960 SuperPoD兩款超節點產品。基于昇騰950芯片的Atlas 950超節點,支持8192卡規模,由128個計算柜和32個互聯柜組成,占地面積約1000平方米,FP8算力達8EFlops,FP4算力達16EFlops,互聯帶寬高達16 PB,相當于當前全球互聯網總帶寬的10倍以上,將于2026年第四季度上市。徐直軍強調,Atlas 950超節點將成為2026 - 2028年間全球算力最強的AI超節點。
Atlas 960超節點支持15488卡,由176個計算柜和44個互聯柜組成,算力、內存和帶寬在Atlas 950基礎上再次翻番,計劃于2027年四季度上市。
徐直軍特別提到,超節點的應用價值不僅體現在制造、通信和計算等傳統業務領域,在互聯網產業廣泛應用的推薦系統方面也發揮著重要作用。華為基于泰山950和Atlas 950可構建混合超節點,為下一代深度推薦系統開辟全新架構方向。一方面,通過超大帶寬、超低時延互聯技術及超大內存容量,混合超節點能夠形成PB級別的共享內存池,支持超大規模推薦系統嵌入表,從而承載超高維度的用戶特征;另一方面,混合超節點具備的超大AI算力可支持低時延推理和高效特征檢索,是面向下一代昇騰950系列推薦系統解決方案的全新選擇。
然而,大規模超節點在提升智能計算和通用計算能力的同時,也對互聯技術提出了巨大挑戰。目前產業界面臨兩大難題:一是如何實現長距離且高可靠的互聯。大規模超節點涉及多個機柜,連接距離可能長達1000至2000米。當前電互聯技術在高速信號傳輸時距離受限,最多僅支持兩個機柜互聯;而光互聯技術雖能滿足長距離連接需求,卻無法達到單一計算機系統所要求的高可靠性。二是如何實現超大帶寬與超低時延。當前跨機柜卡間互聯帶寬與超節點需求存在5倍以上差距,時延最好僅能達到3微秒左右,與Atlas 950/960設計目標仍有24%的差距。在時延已逼近物理極限的情況下,每0.1微秒的提升都極具挑戰。
由于受到外部制裁,華為無法采用全球最先進的芯片制程工藝。因此,華為通過超節點架構將多個芯片組合成一臺邏輯統一的計算機,以系統級創新彌補單芯片性能差距。依托30多年積累的技術能力,華為通過系統性創新攻克了上述互聯技術難題,完全滿足了Atlas 950/960超節點的設計需求,并為未來實現萬卡級超節點奠定了技術基礎。徐直軍表示,基于全球最強算力的超節點和集群,華為有信心為人工智能的長期快速發展提供可持續且充裕的算力。