螞蟻集團(tuán)近日宣布,其自主研發(fā)的萬(wàn)億參數(shù)強(qiáng)化學(xué)習(xí)高性能權(quán)重交換框架Awex正式開源。這一框架專為提升訓(xùn)練推理引擎的權(quán)重同步效率設(shè)計(jì),能夠有效解決強(qiáng)化學(xué)習(xí)流程中訓(xùn)練權(quán)重參數(shù)向推理模型同步的關(guān)鍵技術(shù)瓶頸,支持在秒級(jí)時(shí)間內(nèi)完成TB級(jí)大規(guī)模參數(shù)的快速交換,顯著降低模型訓(xùn)練延遲。
作為螞蟻ASystem強(qiáng)化學(xué)習(xí)系統(tǒng)的核心組件,Awex為百靈萬(wàn)億模型訓(xùn)練提供了重要技術(shù)支撐。該框架通過(guò)優(yōu)化權(quán)重同步機(jī)制,實(shí)現(xiàn)了訓(xùn)練與推理環(huán)節(jié)的高效銜接,尤其在處理超大規(guī)模參數(shù)時(shí)表現(xiàn)出色。螞蟻集團(tuán)透露,未來(lái)將持續(xù)開源ASystem的其他核心強(qiáng)化學(xué)習(xí)組件,逐步構(gòu)建完整的開源訓(xùn)練生態(tài)體系。
強(qiáng)化學(xué)習(xí)技術(shù)已成為當(dāng)前大模型后訓(xùn)練階段的核心驅(qū)動(dòng)力。從ChatGPT采用的RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))方法,到DeepSeek、Claude、Llama等主流模型的后訓(xùn)練體系,均依賴強(qiáng)化學(xué)習(xí)技術(shù)優(yōu)化模型輸出,使其更貼合人類偏好并增強(qiáng)推理能力。這項(xiàng)技術(shù)正在持續(xù)拓展人工智能模型的智能邊界,推動(dòng)行業(yè)向更高水平發(fā)展。
今年10月,螞蟻集團(tuán)已開源兩款萬(wàn)億參數(shù)旗艦?zāi)P停悍撬伎夹湍P蚅ing-1T與思考型模型Ring-1T。其中,Ring-1T基于自研的Awex框架構(gòu)建,在數(shù)千張GPU集群環(huán)境下實(shí)現(xiàn)了5至10秒內(nèi)完成萬(wàn)億級(jí)參數(shù)的權(quán)重同步。這一突破性進(jìn)展驗(yàn)證了Awex框架在超大規(guī)模模型訓(xùn)練中的技術(shù)優(yōu)勢(shì),為行業(yè)提供了高性能、低延遲的解決方案。











