螞蟻技術團隊近期宣布了一項重大舉措,正式向公眾開放了其最新研發(fā)的輕量級推理模型——Ring-lite。這款模型在多個推理評測中取得了卓越表現(xiàn),彰顯了MoE(混合專家)架構在推理任務中的巨大潛力。
Ring-lite是在螞蟻技術團隊先前推出的Ling-lite-1.5模型的基礎上進一步優(yōu)化而來。Ling-lite-1.5采用了MoE架構,總參數達到168億,但有效激活參數僅為27.5億。而Ring-lite通過引入獨創(chuàng)的C3PO強化學習訓練方法,成功提升了模型性能,在AIME24/25、LiveCodeBench、CodeForce、GPQA-diamond等多個推理評測中均名列前茅,其表現(xiàn)甚至超越了參數規(guī)模為其三倍以下的Dense模型。
在技術創(chuàng)新方面,Ring-lite團隊實現(xiàn)了多項突破。他們首創(chuàng)的C3PO強化學習訓練方法有效解決了回復長度波動帶來的訓練難題,顯著提高了訓練的穩(wěn)定性和效率。團隊還深入探討了Long-CoT SFT與RL訓練的最佳比例,通過引入基于entropy loss的訓練策略,平衡了訓練效果和樣本效率,進一步提升了模型的整體性能。
Ring-lite還解決了多領域數據聯(lián)合訓練的挑戰(zhàn)。通過系統(tǒng)對比混合訓練與分階段訓練的優(yōu)劣,該模型在數學、代碼、科學三大領域實現(xiàn)了協(xié)同提升。在復雜推理任務中,Ring-lite展現(xiàn)出了強大的性能,特別是在數學推理和編程競賽方面,其得分遠超其他對比模型。
為了驗證Ring-lite的實際應用能力,螞蟻技術團隊還對其進行了高考數學和物理題的測試。結果顯示,Ring-lite在數學全國一卷上的得分接近130分,表現(xiàn)極為出色。
螞蟻技術團隊在開源Ring-lite時,不僅提供了模型權重和訓練代碼,還承諾將逐步公開所有訓練數據集、超參配置以及實驗記錄。這一舉措標志著輕量級MoE推理模型首次實現(xiàn)了全鏈路透明化,為相關領域的研究人員提供了極為寶貴的參考資源。
感興趣的研究人員和開發(fā)者可以通過以下鏈接獲取Ring-lite的相關信息:
GitHub鏈接:https://github.com/inclusionAI/Ring
Hugging Face鏈接:https://huggingface.co/inclusionAI/Ring-lite
ModelScope鏈接:https://modelscope.cn/models/inclusionAI/Ring-lite