在最新公布的MLPerf AI訓(xùn)練基準(zhǔn)測(cè)試中,英偉達(dá)推出的GB300 NVL72平臺(tái)憑借Blackwell Ultra架構(gòu)展現(xiàn)出驚人實(shí)力,一舉包攬全部七個(gè)測(cè)試項(xiàng)目的冠軍。這一成果標(biāo)志著AI計(jì)算硬件領(lǐng)域迎來新一輪性能突破,特別是在處理超大規(guī)模語言模型時(shí)展現(xiàn)出顯著優(yōu)勢(shì)。
測(cè)試數(shù)據(jù)顯示,該平臺(tái)在訓(xùn)練4050億參數(shù)的Llama 3.1大模型時(shí),僅耗時(shí)10分鐘便完成全部訓(xùn)練流程。面對(duì)Llama 2 70B模型的LoRA微調(diào)任務(wù),其處理速度更是達(dá)到每0.4分鐘完成一次迭代。對(duì)于80億參數(shù)的Llama 3.1 8B模型訓(xùn)練,整個(gè)過程僅需5.2分鐘,三項(xiàng)測(cè)試均刷新行業(yè)紀(jì)錄。
與前代產(chǎn)品相比,新一代架構(gòu)的性能提升堪稱飛躍。在Llama 2 70B微調(diào)任務(wù)中,8塊GB300 GPU組成的集群展現(xiàn)出相當(dāng)于同等數(shù)量H100 GPU五倍的處理能力。當(dāng)面對(duì)4050億參數(shù)的Llama 3.1預(yù)訓(xùn)練任務(wù)時(shí),其性能表現(xiàn)更是達(dá)到H100的四倍以上,較同架構(gòu)的GB200平臺(tái)提速近兩倍。
支撐這種突破性表現(xiàn)的是軟硬件協(xié)同創(chuàng)新的系統(tǒng)設(shè)計(jì)。硬件層面,系統(tǒng)搭載的Quantum-X800 InfiniBand高速網(wǎng)絡(luò)實(shí)現(xiàn)800GB/s的傳輸速率,每塊GPU配備的279GB HBM3e高帶寬內(nèi)存,使整個(gè)系統(tǒng)的總內(nèi)存容量(含GPU與CPU)突破40TB大關(guān)。這種配置為處理超大規(guī)模數(shù)據(jù)流提供了堅(jiān)實(shí)基礎(chǔ)。
軟件層面的革新同樣關(guān)鍵。英偉達(dá)全面采用FP4精度計(jì)算技術(shù),在模型訓(xùn)練的每個(gè)計(jì)算層均應(yīng)用這種低精度格式。相比傳統(tǒng)的FP8精度,新方案使計(jì)算速度直接翻倍,而Blackwell Ultra架構(gòu)的優(yōu)化設(shè)計(jì)更將效率提升至三倍水平。這種精度與架構(gòu)的雙重優(yōu)化,成為突破性能瓶頸的核心要素。
測(cè)試結(jié)果還顯示,該平臺(tái)在多任務(wù)處理場(chǎng)景中保持穩(wěn)定性能輸出。無論是需要高精度計(jì)算的微調(diào)任務(wù),還是要求海量數(shù)據(jù)吞吐的預(yù)訓(xùn)練過程,系統(tǒng)都能維持高效運(yùn)行狀態(tài)。這種全場(chǎng)景覆蓋能力,使其成為AI研發(fā)機(jī)構(gòu)構(gòu)建超算集群的理想選擇。











