第22屆中國計(jì)算機(jī)大會(huì)(CNCC2025)在哈爾濱拉開帷幕,這場(chǎng)以“數(shù)智賦能,無限可能”為主題的科技盛會(huì)吸引了眾多行業(yè)目光。華為數(shù)據(jù)通信產(chǎn)品線研究部部長鄭曉龍?jiān)跁?huì)上發(fā)表了題為《大模型推理加速與演進(jìn):網(wǎng)絡(luò)如何破局?》的演講,首次提出“網(wǎng)絡(luò)+”破局模型,為解決十萬卡智算集群面臨的通信瓶頸問題提供了全新思路。
鄭曉龍指出,在單卡算力提升逐漸放緩的當(dāng)下,通過跨層協(xié)同網(wǎng)絡(luò)、計(jì)算與存儲(chǔ)資源,才能將集群效率推向新的高度。華為提出的“網(wǎng)絡(luò)+”破局模型,正是為了系統(tǒng)化解決超大規(guī)模智算集群中的通信難題,為下一代智算基礎(chǔ)設(shè)施建設(shè)提供完整技術(shù)路徑。
隨著DeepSeek推動(dòng)大模型架構(gòu)向更稀疏的大EP部署演進(jìn),通信模式發(fā)生了顯著變化,呈現(xiàn)出更強(qiáng)的隨機(jī)性和非對(duì)稱性。華為通過引入網(wǎng)絡(luò)級(jí)負(fù)載均衡技術(shù),成功應(yīng)對(duì)了這一挑戰(zhàn),使通信性能提升超過20%,同時(shí)顯著降低了P99完成時(shí)間。
當(dāng)前,大模型應(yīng)用正從聊天式的Chat LLM向具備自主決策能力的Agentic AI轉(zhuǎn)型,對(duì)token生成速度的要求從50ms提升至10ms以下。這一轉(zhuǎn)變帶來了諸多挑戰(zhàn):推理階段以小消息通信為主,控制面時(shí)延占比高;若單純卸載控制面,又會(huì)消耗計(jì)算資源SM。為此,華為推出了CloudMatrix384超節(jié)點(diǎn)及配套的超節(jié)點(diǎn)網(wǎng)絡(luò),為滿足極致的TPOT需求提供了解決方案。
在多模態(tài)大語言模型(LMM)流量混戰(zhàn)的背景下,華為強(qiáng)調(diào)“網(wǎng)絡(luò)+”并非簡單的帶寬升級(jí),而是要讓網(wǎng)絡(luò)成為AI集群的“第七代算力”。通過智能化的網(wǎng)絡(luò)調(diào)度策略,華為成功提升了推理性能,實(shí)現(xiàn)了“四兩撥千斤”的效果。
演講最后,鄭曉龍呼吁業(yè)界共同參與標(biāo)準(zhǔn)建設(shè),與合作伙伴及行業(yè)組織攜手,共同定義大模型時(shí)代的下一代智算網(wǎng)絡(luò)接口,推動(dòng)整個(gè)行業(yè)向更高水平發(fā)展。








