華為近期宣布了一項(xiàng)在人工智能領(lǐng)域的重大進(jìn)展,通過(guò)其創(chuàng)新的“昇騰 + Pangu Ultra MoE”系統(tǒng),成功實(shí)現(xiàn)了近萬(wàn)億參數(shù)的大規(guī)模稀疏模型(MoE)的高效訓(xùn)練。這一壯舉尤為引人注目之處在于,整個(gè)訓(xùn)練過(guò)程在沒(méi)有依賴傳統(tǒng)GPU加速的情況下完成,彰顯了華為在自主可控算力及模型訓(xùn)練技術(shù)上的深厚積累。
在技術(shù)實(shí)現(xiàn)層面,華為研發(fā)團(tuán)隊(duì)對(duì)訓(xùn)練系統(tǒng)進(jìn)行了全面優(yōu)化,通過(guò)精細(xì)設(shè)計(jì)的并行策略與計(jì)算通信優(yōu)化,極大提升了集群的訓(xùn)練效能。據(jù)華為發(fā)布的技術(shù)細(xì)節(jié)顯示,在CloudMatrix384超節(jié)點(diǎn)平臺(tái)上實(shí)施的多項(xiàng)技術(shù)創(chuàng)新,如創(chuàng)新的通信協(xié)議與負(fù)載均衡算法,近乎消除了大規(guī)模MoE訓(xùn)練中的專家并行通信開(kāi)銷,并確保了計(jì)算任務(wù)的均衡分配。
華為在提升單節(jié)點(diǎn)計(jì)算能力方面也取得了顯著成果。通過(guò)深入優(yōu)化訓(xùn)練算子的執(zhí)行流程,華為不僅將微批處理規(guī)模擴(kuò)大了一倍,還有效解決了算子調(diào)度中的效率瓶頸。這一技術(shù)革新意味著,在處理復(fù)雜計(jì)算任務(wù)時(shí),華為的系統(tǒng)能夠更充分地挖掘和利用現(xiàn)有硬件資源,實(shí)現(xiàn)更高的訓(xùn)練效率。
這一系列技術(shù)創(chuàng)新不僅標(biāo)志著華為在MoE模型訓(xùn)練效率上的巨大飛躍,更為未來(lái)構(gòu)建和應(yīng)用更大規(guī)模的AI模型奠定了堅(jiān)實(shí)的基礎(chǔ),預(yù)示著人工智能領(lǐng)域或?qū)⒂瓉?lái)新的變革與發(fā)展機(jī)遇。