滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

國產大模型高考出分了：裸分683，選清華還是北大？

時間：2025-06-26 15:04:21 來源：量子位編輯：快訊團隊 IP：北京 發表評論無障礙通道

| 公眾號 QbitAI

這兩天啊，各地高考的成績終于是陸續公布了。

現在，也是時候揭曉全球第一梯隊的大模型們的“高考成績”了——

我們先來看下整體的情況（該測試由字節跳動Seed團隊官方發布）：

按照傳統文理分科計分方式，Gemini的理科總成績655分，在所有選手里排名第一。豆包的文科總成績683分，排名第一，理科總成績是648分，排名第二。

再來看下各個細分科目的成績情況：

除了數學、化學和生物之外，豆包的成績依舊是名列前茅，6個科目均是第一。

不過其它AI選手的表現也是比較不錯，可以說是達到了優秀學生的水準。

比較遺憾的選手就要屬O3，因為它在語文寫作上跑了題，因此語文成績僅95分，拉低了整體的分數。

若是從填報志愿角度來看，因為這套測試采用的是山東省的試卷，根據過往經驗判斷，3門自選科目的賦分相比原始分會有一定程度的提高，尤其是在化學、物理等難度較大的科目上。本次除化學成績相對稍低外，豆包的其余科目組合的賦分成績最高能超過690分，有望沖刺清華、北大。

進一步強化文本數據的知識與推理密度，增加學科、代碼、推理類數據占比，同時引入視覺模態數據，與高質量文本混合訓練。

第三階段：長上下文持續訓練（LongCT）

通過不同長度的長文數據逐步擴展模型序列長度，將最大支持長度從32K提升至256K。

通過模型架構、訓練算法及Infra的持續優化，Seed1.6 base模型在參數量規模接近的情況下，性能較Seed1.5 base實現顯著提升，為后續后訓練工作奠定基礎。

這一招的發力，就對諸如高考語文閱讀理解、英語完形填空和理科綜合應用題等的作答上起到了提高準確率的作用，因為它們往往涉及長文本且看重上下文理解。

第二招：多模態融合的深度思考能力

Seed1.6-Thinking 延續Seed1.5-Thinking的多階段RFT（強化反饋訓練）與RL（強化學習）迭代優化方法，每輪RL以上一輪RFT為起點，通過多維度獎勵模型篩選最優回答。相較于前代，其升級點包括：

拓展訓練算力，擴大高質量數據規模（涵蓋 Math、Code、Puzzle 等領域）；

提升復雜問題的思考長度，深度融合VLM能力，賦予模型清晰的視覺理解能力；

引入parallel decoding技術，無需額外訓練即可擴展模型能力 —— 例如在高難度測試集Beyond AIME中，推理成績提升8分，代碼任務表現也顯著優化。

這種能力直接對應高考中涉及圖表、公式的題目，如數學幾何證明、物理電路圖分析、地理等高線判讀等；可以快速定位關鍵參數并推導出解題路徑，避免因單一模態信息缺失導致的誤判。

第三招：AutoCoT解決過度思考問題

深度思考依賴Long CoT（長思維鏈）增強推理能力，但易導致 “過度思考”—— 生成大量無效token，增加推理負擔。

為此，Seed1.6-AutoCoT提出 “動態思考能力”，提供全思考、不思考、自適應思考三種模式，并通過RL訓練中引入新獎勵函數（懲罰過度思考、獎勵恰當思考），實現CoT長度的動態壓縮。

在實際測試中：

中等難度任務（如 MMLU、MMLU pro）中，CoT 觸發率與任務難度正相關（MMLU 觸發率37%，MMLU pro觸發率70%）；

復雜任務（如AIME）中，CoT觸發率達100%，效果與Seed1.6-FullCoT相當，驗證了自適應思考對Long CoT推理優勢的保留。

以上就是豆包能夠在今年高考全科目評測中脫穎而出的原因了。

不過除此之外，還有一些影響因素值得說道說道。

正如我們剛才提到的，化學和生物的題目中讀圖題占比較大，但因非官方發布的圖片清晰度不足，會導致多數大模型的表現不佳；不過Gemini2.5-Pro-0605的多模態能力較突出，尤其在化學領域。

不過最近，字節Seed團隊在使用了更清晰的高考真題圖片后，以圖文結合的方式重新測試了對圖片理解要求較高的生物和化學科目，結果顯示Seed1.6-Thinking的總分提升了近30分（理科總分達676）。

圖文交織輸入示例

這說明，全模態推理（結合文本與圖像）能顯著釋放模型潛力，是未來值得深入探索的方向。

那么你對于這次大模型們的battle結果有何看法？歡迎大家拿真題去實測后，在評論區留言你的感受。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

鴻蒙智行智界品牌啟動補貼：全系車型立減2萬元現金

06-26

TikTok矩陣運營：如何精準打造賬號IP人設，引爆流量？

06-26

AI訓練背后：Anthropic斥資數百萬購書卻“銷毀”，合理嗎？

06-26

中美飛船對接空間站時長差異大：技術策略不同，各有考量

06-26

東亞文化下的月亮之傷：解鎖你被壓抑的真實情感需求

06-26

天文望遠鏡的多樣用途：從觀日到賞鳥，打開你的天文新世界

06-26

充電寶新規！民航局禁帶無3C標識或安全隱患充電寶登機

06-26

神舟二十號乘組太空兩月紀實：多項科學實驗與出艙任務圓滿完成

06-26

抖音音樂推廣：輕松副業新選擇，日賺零花錢不是夢

那里每個月都會更新10-20個特別靠譜的副業項目，像我做的這個抖音音樂推廣就是在上面看到的。就像外賣員要先注冊平臺才能接單賺錢一個道理，沒有權限就算你發了視頻也沒有收益。還有就是不要只盯著一個平臺，我現在同…

06-26

阿里云助力中企揚帆出海，打造全球云計算新網絡

問：中企跟阿里云出海其實是中國制造能力和創新能力的溢出，這跟當年我們改革開放時有什么不一樣？因為阿里云全球布局比較早，這在這波中企出海這個聲浪起來之前，已經做了非常好的全球化規劃，當然這里面有我們自己業務…

06-26

湖北建筑勞務行業新生態：互聯網+賦能，共創轉型升級新機遇

正是在這種理念驅動下，“湖北建筑勞務行業平臺”應運而生，致力于服務全省廣大從業者，為推動區域建筑業升級注入新活力。如果你也希望把握新時代風口，與志同道合伙伴共同成長，不妨關注并嘗試加入湖北建筑勞務行業平臺——…

06-26

自研電池浪潮迭起，車企能否將“軟肋”鍛造成未來競爭的“殺手锏”？

汽車行業的新玩家小米汽車，雖沒有自研電池，但在2023年12月就發布了CTB一體化電池技術，這項技術由小米汽車與寧德時代一起開發，實現全球最高體積效率77.8%。不可否認，車企自研電池具有控制成本、保障供應、…

06-26

中國量子計算新飛躍：千比特超導測控系統成功交付

此次交付的“ez-Q Engine 2.0”在集成度、國產化率及成本控制三大維度實現突破性進展：設備集成度較上一代提升10倍，單機箱即可支持128個數據比特與256個耦合比特，8臺設備即可完成千比特級量子計算…

06-26

碳纖維行業新藍海：低空飛行與機器人技術引領產業升級

2025第九屆國際碳材料大會暨產業展覽會在此背景下隆重舉行，展會特設高端裝備碳材料館（N2館），將匯聚國內外領先的碳纖維研發、生產及應用企業，集中展示汽車工業、航空航天、壓力容器、光伏等領域用碳基制品，涵蓋…

06-26

Agent智能體：重塑AI未來，深度解析智能體與傳統AI的差異

檢索增強生成（RAG）技術通過結合向量數據庫和知識圖譜，從海量數據中檢索與任務相關的信息，并將其融入到智能體的決策和生成過程中，有效解決了大語言模型信息滯后的問題，使智能體能夠根據最新信息做出決策。通過與實在…

06-26

點擊查看更多 +

全站最新

鴻蒙智行智界品牌啟動補貼：全系車型立減2萬元現金

阿斯頓·馬丁亞洲首秀：東京南青山N°001奢華私邸驚艷亮相

阿斯頓·馬丁DB12 S Volante敞篷版曝光，預計動力超720馬力

別克GL8陸上公務艙煥新上市，22.99萬起售，智能化配置引領同級新標桿

TikTok矩陣運營：如何精準打造賬號IP人設，引爆流量？

AI訓練背后：Anthropic斥資數百萬購書卻“銷毀”，合理嗎？

熱門內容

本欄最新

AI訓練背后：Anthropic斥資數百萬購書卻“銷毀”，合理嗎？

中美飛船對接空間站時長差異大：技術策略不同，各有考量

天文望遠鏡的多樣用途：從觀日到賞鳥，打開你的天文新世界

充電寶新規！民航局禁帶無3C標識或安全隱患充電寶登機

神舟二十號乘組太空兩月紀實：多項科學實驗與出艙任務圓滿完成

抖音音樂推廣：輕松副業新選擇，日賺零花錢不是夢

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

國產大模型高考出分了：裸分683，選清華還是北大？

日本精品一区二区三区高清久久

國產大模型高考出分了：裸分683，選清華還是北大？