螞蟻集團旗下百靈團隊近日宣布,其自主研發的萬億參數思考模型Ring-1T正式上線并全面開源,包括模型權重與訓練框架。該模型在9月30日發布的預覽版Ring-1T-preview基礎上,通過大規模可驗證獎勵強化學習(RLVR)技術進一步優化了自然語言推理能力,同時結合RLHF訓練框架提升了通用任務表現,在多項基準測試中展現出均衡性能。
在數學推理能力驗證方面,Ring-1T創造了開源模型領域的歷史性突破。研究團隊將其接入多智能體框架AWorld,以純自然語言推理方式挑戰國際數學奧林匹克(IMO)2025年賽題。實驗數據顯示,模型首次嘗試即成功解出第1、3、4、5題,達到IMO銀牌標準,成為首個具備國際奧數獎級水平的開源系統。面對第2題幾何證明時,第三次嘗試即產出接近滿分的證明過程;在第六題復雜計算中,答案收斂至與Gemini2.5Pro相同的"4048"(正確答案為2112),展現出強大的復雜問題處理能力。
通用能力測試中,Ring-1T在"人類偏好對齊"基準Arena-Hard V2上取得81.59%的成功率,位列開源模型榜首,與GPT-5-Thinking(High)的82.91%僅差1.32個百分點。在醫療領域專業測評HealthBench中,該模型以最高分刷新開源模型紀錄,證明其在專業場景下的可靠性。
針對萬億參數模型訓練的核心挑戰——訓練與推理階段的精度差異問題,螞蟻集團研發了"棒冰(icepop)"算法。該技術通過帶掩碼的雙向截斷機制,將訓練-推理分布差異控制在極低水平,確保長序列訓練的穩定性。對比實驗顯示,采用傳統GRPO算法的模型隨著訓練推進,訓推差異呈指數級增長,而icepop算法始終維持平穩狀態,有效避免了訓練崩潰風險。
在強化學習系統優化方面,螞蟻自研的ASystem框架(含開源組件AReaL)針對萬億參數模型特性,開發了顯存碎片秒級回收和權重零冗余交換技術。這些創新解決了大規模模型訓練中的顯存管理難題,使強化學習訓練能夠穩定持續進行。
基礎架構層面,Ring-1T延續了Ling2.0架構的1T base模型設計,采用高度稀疏的MoE架構(專家激活比1/32)、FP8混合精度訓練及MTP優化技術。后訓練階段通過LongCoT-SFT、RLVR、RLHF三階段聯合訓練,顯著提升了模型的復雜推理、指令跟隨及創意寫作能力。
目前,用戶可通過HuggingFace平臺和魔搭社區下載Ring-1T模型,或通過螞蟻百寶箱在線體驗。該模型的發布標志著螞蟻百靈大模型家族正式邁入2.0時代,現已形成覆蓋160億至1萬億參數的完整產品矩陣,包含萬億參數通用大語言模型Ling-1T和思考模型Ring-1T兩款旗艦產品。據團隊透露,后續版本將持續優化模型性能,拓展應用場景。






