| 公眾號 QbitAI
這兩天啊,各地高考的成績終于是陸續公布了。
現在,也是時候揭曉全球第一梯隊的大模型們的“高考成績”了——
我們先來看下整體的情況(該測試由字節跳動Seed團隊官方發布):
按照傳統文理分科計分方式,Gemini的理科總成績655分,在所有選手里排名第一。豆包的文科總成績683分,排名第一,理科總成績是648分,排名第二。
再來看下各個細分科目的成績情況:
除了數學、化學和生物之外,豆包的成績依舊是名列前茅,6個科目均是第一。
不過其它AI選手的表現也是比較不錯,可以說是達到了優秀學生的水準。
比較遺憾的選手就要屬O3,因為它在語文寫作上跑了題,因此語文成績僅95分,拉低了整體的分數。
若是從填報志愿角度來看,因為這套測試采用的是山東省的試卷,根據過往經驗判斷,3門自選科目的賦分相比原始分會有一定程度的提高,尤其是在化學、物理等難度較大的科目上。本次除化學成績相對稍低外,豆包的其余科目組合的賦分成績最高能超過690分,有望沖刺清華、北大。
進一步強化文本數據的知識與推理密度,增加學科、代碼、推理類數據占比,同時引入視覺模態數據,與高質量文本混合訓練。
第三階段:長上下文持續訓練(LongCT)
通過不同長度的長文數據逐步擴展模型序列長度,將最大支持長度從32K提升至256K。
通過模型架構、訓練算法及Infra的持續優化,Seed1.6 base模型在參數量規模接近的情況下,性能較Seed1.5 base實現顯著提升,為后續后訓練工作奠定基礎。
這一招的發力,就對諸如高考語文閱讀理解、英語完形填空和理科綜合應用題等的作答上起到了提高準確率的作用,因為它們往往涉及長文本且看重上下文理解。
第二招:多模態融合的深度思考能力
Seed1.6-Thinking 延續Seed1.5-Thinking的多階段RFT(強化反饋訓練)與RL(強化學習)迭代優化方法,每輪RL以上一輪RFT為起點,通過多維度獎勵模型篩選最優回答。相較于前代,其升級點包括:
拓展訓練算力,擴大高質量數據規模(涵蓋 Math、Code、Puzzle 等領域);
提升復雜問題的思考長度,深度融合VLM能力,賦予模型清晰的視覺理解能力;
引入parallel decoding技術,無需額外訓練即可擴展模型能力 —— 例如在高難度測試集Beyond AIME中,推理成績提升8分,代碼任務表現也顯著優化。
這種能力直接對應高考中涉及圖表、公式的題目,如數學幾何證明、物理電路圖分析、地理等高線判讀等;可以快速定位關鍵參數并推導出解題路徑,避免因單一模態信息缺失導致的誤判。
第三招:AutoCoT解決過度思考問題
深度思考依賴Long CoT(長思維鏈)增強推理能力,但易導致 “過度思考”—— 生成大量無效token,增加推理負擔。
為此,Seed1.6-AutoCoT提出 “動態思考能力”,提供全思考、不思考、自適應思考三種模式,并通過RL訓練中引入新獎勵函數(懲罰過度思考、獎勵恰當思考),實現CoT長度的動態壓縮。
在實際測試中:
中等難度任務(如 MMLU、MMLU pro)中,CoT 觸發率與任務難度正相關(MMLU 觸發率37%,MMLU pro觸發率70%);
復雜任務(如AIME)中,CoT觸發率達100%,效果與Seed1.6-FullCoT相當,驗證了自適應思考對Long CoT推理優勢的保留。
以上就是豆包能夠在今年高考全科目評測中脫穎而出的原因了。
不過除此之外,還有一些影響因素值得說道說道。
正如我們剛才提到的,化學和生物的題目中讀圖題占比較大,但因非官方發布的圖片清晰度不足,會導致多數大模型的表現不佳;不過Gemini2.5-Pro-0605的多模態能力較突出,尤其在化學領域。
不過最近,字節Seed團隊在使用了更清晰的高考真題圖片后,以圖文結合的方式重新測試了對圖片理解要求較高的生物和化學科目,結果顯示Seed1.6-Thinking的總分提升了近30分(理科總分達676)。
圖文交織輸入示例
這說明,全模態推理(結合文本與圖像)能顯著釋放模型潛力,是未來值得深入探索的方向。
那么你對于這次大模型們的battle結果有何看法?歡迎大家拿真題去實測后,在評論區留言你的感受。