在近日舉辦的世界互聯(lián)網(wǎng)大會·烏鎮(zhèn)峰會前沿人工智能模型論壇上,螞蟻集團(tuán)平臺技術(shù)事業(yè)群負(fù)責(zé)人駱驥透露,該集團(tuán)已建成具備萬卡規(guī)模的國產(chǎn)化算力基礎(chǔ)設(shè)施。這一由國產(chǎn)芯片構(gòu)建的集群不僅支持螞蟻?zhàn)匝心P图爸髁鏖_源框架,更在系統(tǒng)穩(wěn)定性方面取得突破性進(jìn)展,連續(xù)訓(xùn)練任務(wù)成功率保持在98%以上。
據(jù)技術(shù)團(tuán)隊(duì)介紹,該算力集群通過架構(gòu)優(yōu)化與算法調(diào)優(yōu),在模型訓(xùn)練效率與推理響應(yīng)速度等核心指標(biāo)上,已達(dá)到國際同類產(chǎn)品的同等水平。特別在安全風(fēng)控場景中,依托該集群構(gòu)建的大模型系統(tǒng),能夠?qū)崟r處理海量數(shù)據(jù)并完成風(fēng)險識別,為金融業(yè)務(wù)提供智能化支撐。
值得關(guān)注的是,這套國產(chǎn)化解決方案實(shí)現(xiàn)了從硬件到軟件的全鏈路自主可控。工程團(tuán)隊(duì)通過分布式訓(xùn)練框架創(chuàng)新,解決了大規(guī)模集群下的通信瓶頸問題,同時開發(fā)了動態(tài)資源調(diào)度系統(tǒng),使算力利用率較傳統(tǒng)方案提升40%以上。目前該集群已承載螞蟻集團(tuán)多個核心業(yè)務(wù)的模型訓(xùn)練任務(wù),日均處理數(shù)據(jù)量超過PB級。
業(yè)內(nèi)專家指出,萬卡級國產(chǎn)算力集群的落地,標(biāo)志著我國在人工智能基礎(chǔ)設(shè)施領(lǐng)域取得重要進(jìn)展。這種自主可控的技術(shù)棧不僅降低了對進(jìn)口芯片的依賴,更通過定制化優(yōu)化釋放了國產(chǎn)硬件的潛在性能,為金融科技等關(guān)鍵領(lǐng)域提供了安全可靠的算力保障。









