日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

Qwen3重磅發布:雙思考模式切換,大型語言模型推理能力再升級!

   時間:2025-04-29 08:07:39 來源:ITBEAR編輯:快訊團隊 IP:北京 發表評論無障礙通道

近日,通義千問團隊震撼發布Qwen3系列大型語言模型,標志著該團隊在人工智能領域的又一重大突破。Qwen3在多個基準測試中展現出了卓越性能,特別是在代碼理解、數學運算及通用知識應用方面,與業界頂尖模型如DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro相比,毫不遜色。

值得注意的是,Qwen3系列中的小型MoE模型Qwen3-30B-A3B,盡管其激活參數數量僅為QwQ-32B的十分之一,但其表現卻更為出色。而Qwen3-4B這樣的小型模型,在性能上也能與Qwen2.5-72B-Instruct相媲美。為了促進學術研究與工業應用,通義千問團隊此次開源了兩個MoE模型權重:一個是擁有超過2350億總參數和220多億激活參數的大型模型Qwen3-235B-A22B,另一個是總參數約300億、激活參數約30億的小型模型Qwen3-30B-A3B。六個Dense模型也已同步在Apache2.0許可下開源。

Qwen3系列模型引入了獨特的思考模式,分為思考模式與非思考模式。在思考模式下,模型會進行逐步推理,深思熟慮后給出答案,尤其適合處理復雜問題;而在非思考模式下,模型則提供快速響應,適用于簡單問題。這種雙模式設計,讓用戶能夠根據不同任務需求,靈活調整模型的“思考”程度,實現高效的“思考預算”管理。

Qwen3系列還支持多達119種語言和方言,為國際應用提供了廣闊空間。其預訓練數據集相較于Qwen2.5有了顯著擴展,涵蓋了約36萬億個token,涉及119種語言和方言。預訓練過程經過精心設計,分為三個階段,確保模型能夠高效處理長輸入。

為了打造兼具思考推理與快速響應能力的混合模型,Qwen3采用了四階段訓練流程。從長思維鏈冷啟動,到長思維鏈強化學習,再到思維模式融合,最終通過通用強化學習進一步提升模型能力。這一流程不僅賦予了模型基本的推理能力,還顯著增強了其通用性。

Qwen3的發布與開源,無疑將為大型基礎模型的研究與開發注入強大動力。通義千問團隊致力于賦能全球研究人員、開發者和組織,助力他們利用這些前沿模型,探索創新解決方案。

目前,Qwen3系列模型已在Hugging Face、ModelScope和Kaggle等平臺上線,用戶可輕松將其集成至研究、開發或生產環境中。對于想要深入了解或體驗Qwen3的用戶,可通過以下鏈接獲取更多信息:

Hugging Face平臺:https://huggingface.co/Qwen/Qwen3-235B-A22B

魔搭社區:https://modelscope.cn/models/Qwen/Qwen3-235B-A22B

Qwen Chat平臺:https://chat.qwen.ai

阿里云百煉平臺(即將上線,提供100萬tokens免費體驗):https://www.aliyun.com/product/tongyi

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 苗栗县| 铁力市| 绥滨县| 镶黄旗| 图木舒克市| 安徽省| 蒙阴县| 芦溪县| 庆城县| 桂阳县| 谷城县| 东港市| 崇礼县| 新化县| 福安市| 临海市| 土默特左旗| 安康市| 东光县| 沙田区| 台北县| 东乡县| 扎赉特旗| 罗江县| 武冈市| 依兰县| 怀安县| 阿图什市| 南江县| 乌兰察布市| 任丘市| 宁明县| 吉木萨尔县| 沽源县| 武强县| 东安县| 应用必备| 临夏市| 鹤山市| 瑞金市| 绥江县|