近日,AI領(lǐng)域傳來了一則令人矚目的消息,知名獨立基準測試機構(gòu)Artificial Analysis發(fā)布了一份重量級報告。報告中,一個名為DeepSeek的AI實驗室憑借其新版R1模型,在AI分析指數(shù)上取得了顯著進步,成功躋身全球第二大AI實驗室之列,與谷歌并駕齊驅(qū)。
據(jù)悉,Artificial Analysis的AI分析指數(shù)涵蓋了MMLU-Pro、GPQA Diamond等七項領(lǐng)先評估,是對全球各大AI模型智能水平的一次全面檢驗。DeepSeek-R1-0528在本次評估中表現(xiàn)出色,指數(shù)從60分大幅躍升至68分,與谷歌的Gemini 2.5 Pro并列第三,這一成績無疑是對DeepSeek團隊努力的最好肯定。
值得注意的是,DeepSeek-R1-0528的進步幅度與OpenAI的o1和o3之間的差異相當,這使其智能程度超越了xAI的Grok 3 mini(高版本)、NVIDIA的Llama Nemotron Ultra、meta的Llama 4 Maverick以及阿里巴巴的Qwen3-235B等眾多強勁對手。這一消息在社交平臺X上引發(fā)了廣泛關(guān)注和熱烈討論,網(wǎng)友們紛紛發(fā)出贊嘆,認為DeepSeek-R1-0528的“飛躍是開源AI的里程碑”,并對其RL(強化學(xué)習(xí))驅(qū)動改進的成功表示贊賞。
從具體評估項目來看,DeepSeek-R1-0528在AIME 2024(競賽數(shù)學(xué))、LiveCodeBench(代碼生成)、GPQA Diamond(科學(xué)推理)以及人類的最后考試(推理與知識)等多個方面均取得了顯著突破。特別是在編程能力上,DeepSeek-R1-0528以59分的高分居于并列第二位,僅次于OpenAI o4-mini(高版本)。在數(shù)學(xué)能力上,它也以94分的優(yōu)異成績躋身前列。
DeepSeek-R1-0528不僅在智能水平上取得了顯著進步,在性價比方面也表現(xiàn)出色。其價格僅為0.96美元/百萬tokens,遠低于OpenAI o4-mini(高版本)和o3等競爭對手。這使得DeepSeek-R1-0528在保持高性能的同時,也具備了極高的經(jīng)濟性,堪稱“性價比之王”。
DeepSeek的這次成功不僅標志著開源AI模型的實力已經(jīng)與封閉模型不相上下,也展示了中國AI實驗室在全球競爭中的強勁實力。截至報告發(fā)布時,DeepSeek在AI分析智能指數(shù)方面已經(jīng)領(lǐng)先于包括Anthropic和meta在內(nèi)的眾多美國AI實驗室。這一成就無疑將為中國AI領(lǐng)域的發(fā)展注入新的動力。