在近期舉辦的云棲大會上,阿里通義千問團隊接連發布多款人工智能模型,引發科技界廣泛關注。此次發布的模型涵蓋語言、視覺、多模態及編程等多個領域,展現了中國在人工智能領域的創新實力。
新一代旗艦模型Qwen3-Max成為焦點,其參數量超過萬億規模,分為指令版和思考版兩個版本。在數學評測中,思考版在AIME25和HMMT榜單上取得滿分成績,展現了強大的邏輯推理能力。指令版則在SWE-Bench評測中以69.6分位居全球第一梯隊,并在Tau2 Bench測試中以74.8分超越Claude Opus4和DeepSeek V3.1,證明其在解決實際問題方面的卓越表現。
視覺理解領域迎來重大突破,Qwen3-VL-235B-A22B模型正式開源。該模型分為指令版和推理版,指令版在多項主流視覺感知評測中表現優異,性能達到甚至超過Gemini 2.5 Pro;推理版則在多模態推理評測基準上取得SOTA表現。特別該模型支持帶圖推理功能,在四項基準測試中成績顯著提升。
實際應用測試中,Qwen3-VL展現出驚人能力。當輸入手繪網頁草圖時,模型能快速生成對應的HTML和CSS代碼。在復雜圖像分析任務中,模型能準確識別圖像中的"頭部、手部、男性、女性、眼鏡"等類別,并以JSON格式報告邊界框坐標。視頻理解方面,模型能處理長視頻內容,實現幀級時間與視覺內容的精細對齊。
技術層面,Qwen3-VL采用多項創新設計。MRoPE-Interleave技術將時間、高度、寬度信息交錯分布,實現全頻覆蓋,提升長視頻理解能力。DeepStack機制融合ViT多層特征,增強視覺細節捕捉和圖文對齊能力。視頻時序建模升級為文本時間戳對齊機制,支持"秒數"和"HMS"兩種輸出格式,顯著提升復雜時序任務的處理精度。
全模態領域迎來里程碑式進展,Qwen3-Omni作為首個原生端到端全模態AI模型,統一處理文本、圖像、音頻和視頻內容,在22個音視頻基準測試中達到SOTA水平。已開源的版本包括30B參數的指令版、思考版和字幕生成版。基于該模型衍生的Qwen3-LiveTranslate實現18種語言的離線和實時音視頻翻譯,準確率超越Gemini-2.5-Flash和GPT-4o-Audio-Preview等同類產品。
編程領域同樣帶來驚喜,新升級的Qwen3-Coder-Plus采用"Qwen Code+Claude Code"聯合訓練方式,性能顯著提升。配套的Qwen Code產品增加多模態模型和sub-agent支持,允許用戶輸入圖像進行編程。實際測試中,該模型成功生成3D寶塔效果,展現強大的代碼生成能力。
在模型架構創新方面,Qwen3-Next基礎模型架構正式發布。該模型總參數量約80B,但在僅激活3B參數的情況下,性能即可與Qwen3-235B媲美。訓練成本較密集模型Qwen3-32B降低超90%,長文本推理吞吐量提升超過10倍,為高效AI訓練和推理開辟新路徑。
阿里云智能集團董事長兼CEO吳泳銘在演講中指出,實現通用人工智能(AGI)已是確定性事件,但這僅是起點,終極目標是發展出能自我迭代的超級人工智能(ASI)。他提出ASI發展將經歷四個階段:智能涌現(學習人)、自主行動(輔助人)、自我迭代(超越人)和超級人工智能(ASI)。同時他預言,大模型將成為下一代操作系統,自然語言是未來的源代碼,AI Cloud是下一代計算機,全球可能最終形成5-6個超級云計算平臺。