日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

超節點時代:AI算力網絡的新趨勢與華為等企業的集群重構探索

   時間:2025-07-15 19:24:04 來源:ITBEAR編輯:快訊團隊 IP:北京 發表評論無障礙通道

在人工智能算力網絡領域,一個新的趨勢正在悄然興起——超節點。這一概念的提出,源于大模型參數的不斷增長和模型架構的持續演變,使得傳統的算力擴容方式已難以滿足需求。Scale-up(縱向擴展)和Scale-out(橫向擴展)作為算力系統擴容的兩個關鍵維度,為我們理解這一趨勢提供了重要視角。

以貨輪運輸為例,當運力需求增加時,Scale-up相當于建造更大的貨輪,而Scale-out則是增加貨輪的數量。在AI領域,Scale-up追求硬件的緊密耦合,以實現高性能計算;而Scale-out則追求彈性擴展,以支撐松散的任務,如數據并行。這兩者在協議棧、硬件和容錯機制上存在顯著差異,導致通信效率各不相同。

以英偉達DGX系列為例,DGX A100通過Infiniband交換網絡實現Scale-out,而DGX H100則通過NVSwitch實現256個H100 GPU的全互聯,形成超節點,從而在通信性能上占據優勢。這種超節點實際上是在單個或多個機柜層面進行的Scale-up,節點內主流通信方案采用銅連接與電氣信號,跨機柜則考慮引入光通信。

英偉達在超節點領域的技術探索尤為引人注目。其推出的DGX GH200系統,將Grace CPU和Hopper GPU封裝在同一塊板卡上,形成“刀片服務器”,并通過內部線纜和光模塊與專門設計的NVLink交換機連接。而隨后的GB200 NVL72超節點產品,則借助第五代NVLink,實現了最大576個GPU的擴容,其中商用方案在機柜層面連接72個GPU,顯著提升了Scale-up的帶寬與尋址性能。

在拓撲結構上,GB200 NVL72中的72個B200 GPU通過單層的NVSwitch實現全互聯,每個B200對超節點內其他71個GPU的通信帶寬均達到1800GB/s,顯著提升了應對通信峰值的能力。與此同時,Scale-out方案則依靠InfiniBand或以太網,通過高帶寬網卡與交換機,帶動光模塊和交換機的放量。

除了英偉達,AMD也在探索超節點的新路徑。其Infinity Fabric互聯總線技術,既用于芯片內部的不同模組,也用于外部互聯。AMD計劃在26H2推出搭載128個MI450X的超節點產品,通過實現以太網Scale-up,打造新的超節點互聯方式。與NVL72不同,MI450X IF128通過IFoE(Infinity Fabric over Ethernet)連接,一定程度上打破了Scale-up和Scale-out的界限。

然而,超節點的發展并非一帆風順。特斯拉的Dojo系統就是一個典型的例子。Dojo是特斯拉專為神經網絡和自動駕駛汽車設計的AI訓練超級計算機,其采用全定制的芯片和軟件棧,與傳統AI架構形成鮮明對比。然而,Dojo的封閉生態和2D Mesh拓撲結構卻成為其發展的重要掣肘。由于硬件設計與傳統GPU架構顯著不同,Dojo在搭建軟件棧時需要自上而下的完全重構,這增加了與主流AI框架對齊的成本。2D Mesh拓撲的彈性較弱,不利于全局通信,不符合主流大模型的趨勢。

面對超節點的挑戰,華為等廠商也在積極探索解決方案。華為認為,超節點的發展需要綜合考慮硬件、軟件和通信協議等多個方面。通過優化硬件設計、提升軟件兼容性和改進通信協議,可以有效解決超節點在擴展性、性能和成本等方面的問題。華為的技術探索為超節點的發展提供了新的思路和方向。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 温宿县| 泰州市| 富锦市| 长兴县| 扎鲁特旗| 马龙县| 德阳市| 博罗县| 宁国市| 益阳市| 满城县| 高密市| 上杭县| 日喀则市| 望奎县| 无极县| 肥东县| 红桥区| 河曲县| 沅陵县| 山阳县| 马关县| 特克斯县| 西乌珠穆沁旗| 富锦市| 观塘区| 叶城县| 江达县| 谷城县| 监利县| 揭阳市| 郯城县| 新营市| 昌乐县| 兴宁市| 安西县| 全南县| 遵义市| 同心县| 铁岭县| 炎陵县|