日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

AI高考大考:DeepSeek、訊飛星火領跑,數學能力誰更強?

   時間:2025-06-08 18:06:30 來源:ITBEAR編輯:快訊團隊 IP:北京 發表評論無障礙通道

在2025年高考數學科目考試結束后,網絡上關于試卷難度的討論熱度不減。作為科技領域的觀察者,我們不禁好奇,對于當前備受矚目的AI技術而言,這份數學試卷是否同樣具有挑戰性?為了回答這個問題,我們組織了一場特別的“考試”,邀請了多家知名的大模型參與,模擬完成了一套高考數學試卷。

本次“考試”中,我們挑選了以下幾家具有代表性的大模型作為“考生”:DeepSeek R1 0528、通義千問 Qwen3-235B-A22B、訊飛星火 X1-0420、豆包 Seed-Thinking-v1.5、文心 X1 Turbo、騰訊混元 Hunyuan T1 latest和GPT o3。由于網絡流傳的試題版本不一,我們通過多版本交叉驗證和教師解題驗證的方式,確保評測的準確性,試卷總分為150分。

我們特別邀請了一位擁有十年高中數學教研經驗的專家汪鵬老師,對大模型的答案進行評分。考慮到部分模型在OCR識別方面的限制,我們采用了OCR轉寫后輸入答題的方式進行處理。

接下來,讓我們通過幾道典型題目,看看這些大模型的表現如何。

首先是選擇題第一題,各家大模型均給出了正確答案,顯示出它們在基礎題目上的穩定表現。

選擇題第五題是一道涉及函數的題目,所有大模型再次全部答對,進一步證明了它們在復雜題目上的解題能力。

然而,在選擇題第八題中,豆包大模型和DeepSeek出現了錯誤,而其他模型均給出了正確答案。這道題目涉及對數函數,顯示出部分模型在處理特定數學知識點時的局限性。

在解答題方面,我們以第16題為例,這是一道涉及數列和函數的題目。DeepSeek、通義千問、訊飛星火和豆包大模型均給出了正確的解題過程和答案,而文心X1和騰訊混元則出現了不同程度的錯誤。

最后,我們來看難度更高的第18題。訊飛星火、豆包大模型、DeepSeek、通義千問和GPT o3均獲得了滿分,而文心X1則因答案錯誤而失分。

經過綜合評分,DeepSeek以143分的成績位列榜首,訊飛星火以141分緊隨其后,GPT o3以138分獲得第三名。這次“考試”不僅展示了AI在數學領域的強大能力,也暴露了部分模型在實際應用中的短板。

DeepSeek作為最新版本的大模型,在思考推理和數學能力方面表現出色,但OCR識別效果不佳,且推理速度慢、資源消耗高。訊飛星火則憑借其較小的模型量級和高效的數學能力,在評測中取得了優異成績,顯示出其在教育領域的深厚積累。

豆包和通義千問等大模型也表現出色,與國際頂尖模型水平相當。這次“考試”不僅是對AI數學能力的一次檢驗,更是對未來AI在教育領域深度應用的一次探索。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 友谊县| 天气| 嘉定区| 宣武区| 崇仁县| 望江县| 广南县| 拉孜县| 泸水县| 平原县| 六安市| 湘阴县| 高陵县| 开封市| 玛纳斯县| 怀安县| 闽清县| 九江市| 泽库县| 迁安市| 黄大仙区| 襄汾县| 河曲县| 嘉祥县| 株洲县| 姚安县| 昭觉县| 台北县| 永川市| 宁明县| 建水县| 元朗区| 保靖县| 宝山区| 怀安县| 许昌县| 大宁县| 太和县| 自贡市| 南投市| 青阳县|