在全球人工智能技術的迅猛發(fā)展中,模型推理的高效性成為了業(yè)界關注的熱點。近日,華為數(shù)學團隊在 DeepSeek 開源活動上,正式推出了名為 FlashComm 的創(chuàng)新技術,該技術通過三大革新手段,實現(xiàn)了對大模型推理性能的顯著提升,速度最高可加快80%。
FlashComm 技術的首要突破在于對 AllReduce 通信操作的優(yōu)化。傳統(tǒng)的 AllReduce 方法在處理數(shù)據(jù)時如同笨重的貨車,缺乏靈活性。華為團隊則通過巧妙的數(shù)據(jù)分割,先執(zhí)行 ReduceScatter 操作,再進行 AllGather,這種調整不僅減少了35%的通信量,還使關鍵計算量降低至原來的八分之一,從而使推理性能提升了22%至26%。
華為團隊在推理過程中發(fā)現(xiàn),通過調整矩陣乘法的并行維度,可以進一步減輕通信負擔。在確保計算精度不受影響的前提下,他們將三維張量簡化為二維矩陣,并結合 INT8 量化技術,使得數(shù)據(jù)傳輸量減少了86%,整體推理速度因此提高了33%。這一策略仿佛是在數(shù)據(jù)傳輸?shù)摹案咚俟贰鄙希捎昧烁咝У摹斑\輸工具”。
華為團隊還引入了多流并行技術,打破了傳統(tǒng)串行計算的瓶頸。在 MoE 模型的推理過程中,他們將復雜的計算流程拆解并重新組織,利用昇騰硬件的多流引擎,實現(xiàn)了三條計算流的精確并行。這意味著,當一組數(shù)據(jù)正在進行專家計算時,另一組數(shù)據(jù)已經進入門控決策階段,從而極大地提高了計算效率。
FlashComm 技術的發(fā)布,標志著華為在大模型推理領域取得了重大技術進展。這一創(chuàng)新不僅將加快模型的推理速度,還將為人工智能應用的發(fā)展注入新的動力,為科研和工業(yè)領域的 AI 應用開辟更加廣闊的前景。