中國信息通信研究院(以下簡稱“信通院”)近日宣布,其自主研發的“方升”人工智能基準測試體系已完成3.0版本升級,標志著我國AI評測能力邁入新階段。此次升級不僅擴展了基礎測試維度,更首次將全模態理解、長期記憶等十項高級智能能力納入評測范圍,為工業制造、金融科技、基礎研究等領域提供了更具針對性的評估框架。
據介紹,3.0版本在原有評測體系基礎上新增了模型底層特征評估模塊,涵蓋參數規模、推理效率等核心指標。針對未來AI發展方向,體系特別設計了高級智能測試單元,重點考察模型在復雜場景下的多模態交互、自主決策等能力。信通院相關負責人表示,這種分層設計既能反映當前技術水平,又能為前沿研究提供方向指引。
為保障評測結果的權威性,信通院同步推進了三大基礎設施建設項目。首先是測試數據資源擴容,計劃新增300萬條涵蓋多語言、多任務的標準化數據,以滿足不同場景下的評測需求。其次是測試方法創新,重點攻關高質量數據合成、動態質量評估等關鍵技術。第三是構建智能評測基座,通過引入多智能體交互仿真環境,實現對復雜系統協同能力的精準評估。
在最新完成的季度評測中,141個大模型和7個智能體接受了全面檢驗。測試覆蓋基礎認知、邏輯推理、代碼生成、多模態理解四大維度。結果顯示,OpenAI的GPT-5在綜合性能上保持領先,但國內模型表現可圈可點——阿里巴巴的Qwen3-Max-Preview和月之暗面的Kimi K2在特定場景下已接近國際先進水平。值得注意的是,多模態模型在圖像識別領域取得突破,但在需要多步驟推理的任務中仍存在提升空間。
代碼應用能力專項測試暴露出行業共性問題。雖然參評模型在簡單函數實現上表現優異,但在真實項目開發中的架構設計、錯誤處理等方面明顯不足。專家指出,這反映出當前AI工具從實驗室到產業應用的轉化過程中,仍需突破工程化能力瓶頸。
隨著評測體系持續完善,信通院已建立雙月評測機制,定期發布技術分析報告。相關負責人透露,下一步將重點加強評測標準國際化建設,通過與全球研究機構合作,推動中國AI評測體系獲得更廣泛的國際認可,為技術創新和產業升級提供有力支撐。





