在2025云棲大會上,阿里通義千問家族迎來重磅成員——Qwen3-Max旗艦模型。這款被視為通義千問"最強大腦"的基礎模型,憑借超越GPT-5、Claude Opus 4等國際頂尖模型的實力,正式躋身全球大模型性能前三行列。其預訓練數據規模達36萬億tokens,參數總量突破萬億級別,在編程能力與工具調用領域展現出壓倒性優勢。
在衡量大模型解決現實問題能力的SWE-Bench Verified測試中,Qwen3-Max的指令版本(Instruct)以69.6分的高分穩居全球第一梯隊。而在專注工具調用效能的Tau2-Bench評測中,該模型更以74.8分的突破性成績,超越Claude Opus4與DeepSeek-V3.1等競爭對手。這兩個權威測試結果,充分驗證了模型在代碼生成與智能體協作方面的領先地位。
值得關注的是,Qwen3-Max推出的推理增強版本Qwen3-Max-Thinking-Heavy在數學推理領域創造了歷史性突破。該模型在AIME 25與HMMT兩項國際頂級數學競賽測試中,均取得滿分100分的優異成績,成為國內首個達成此成就的大模型。其核心突破在于創新性地融合工具調用與并行推理技術,使模型能夠通過編寫代碼解決復雜數學問題,配合計算資源的優化配置,最終實現推理效能的質的飛躍。
針對業界關于預訓練規模化法則(Scaling Law)是否觸及天花板的爭論,Qwen3-Max的實踐給出了有力回應。該模型通過持續擴大數據規模與參數體量,成功打破性能增長瓶頸,證明在現有技術路徑下,大模型仍存在顯著提升空間。目前通義千問系列已構建起覆蓋0.5B至超萬億參數的全尺寸模型矩陣,包含三百余個細分模型,可精準匹配不同行業的應用需求。
從即日起,用戶可通過兩種方式體驗這款尖端模型:在通義千問QwenChat平臺享受免費交互服務,或通過阿里云百煉平臺調用專業API接口。這種雙軌并行的開放策略,既滿足了普通用戶的探索需求,也為企業級應用提供了穩定的技術支撐。