近日,通義千問團隊震撼發布Qwen3系列大型語言模型,標志著該團隊在人工智能領域的又一重大突破。Qwen3在多個基準測試中展現出了卓越性能,特別是在代碼理解、數學運算及通用知識應用方面,與業界頂尖模型如DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro相比,毫不遜色。
值得注意的是,Qwen3系列中的小型MoE模型Qwen3-30B-A3B,盡管其激活參數數量僅為QwQ-32B的十分之一,但其表現卻更為出色。而Qwen3-4B這樣的小型模型,在性能上也能與Qwen2.5-72B-Instruct相媲美。為了促進學術研究與工業應用,通義千問團隊此次開源了兩個MoE模型權重:一個是擁有超過2350億總參數和220多億激活參數的大型模型Qwen3-235B-A22B,另一個是總參數約300億、激活參數約30億的小型模型Qwen3-30B-A3B。六個Dense模型也已同步在Apache2.0許可下開源。
Qwen3系列模型引入了獨特的思考模式,分為思考模式與非思考模式。在思考模式下,模型會進行逐步推理,深思熟慮后給出答案,尤其適合處理復雜問題;而在非思考模式下,模型則提供快速響應,適用于簡單問題。這種雙模式設計,讓用戶能夠根據不同任務需求,靈活調整模型的“思考”程度,實現高效的“思考預算”管理。
Qwen3系列還支持多達119種語言和方言,為國際應用提供了廣闊空間。其預訓練數據集相較于Qwen2.5有了顯著擴展,涵蓋了約36萬億個token,涉及119種語言和方言。預訓練過程經過精心設計,分為三個階段,確保模型能夠高效處理長輸入。
為了打造兼具思考推理與快速響應能力的混合模型,Qwen3采用了四階段訓練流程。從長思維鏈冷啟動,到長思維鏈強化學習,再到思維模式融合,最終通過通用強化學習進一步提升模型能力。這一流程不僅賦予了模型基本的推理能力,還顯著增強了其通用性。
Qwen3的發布與開源,無疑將為大型基礎模型的研究與開發注入強大動力。通義千問團隊致力于賦能全球研究人員、開發者和組織,助力他們利用這些前沿模型,探索創新解決方案。
目前,Qwen3系列模型已在Hugging Face、ModelScope和Kaggle等平臺上線,用戶可輕松將其集成至研究、開發或生產環境中。對于想要深入了解或體驗Qwen3的用戶,可通過以下鏈接獲取更多信息:
Hugging Face平臺:https://huggingface.co/Qwen/Qwen3-235B-A22B
魔搭社區:https://modelscope.cn/models/Qwen/Qwen3-235B-A22B
Qwen Chat平臺:https://chat.qwen.ai
阿里云百煉平臺(即將上線,提供100萬tokens免費體驗):https://www.aliyun.com/product/tongyi