日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

阿里Qwen 3升級亮相,性能超越DeepSeek R1引領開源模型新風尚

   時間:2025-04-29 10:51:14 來源:ITBEAR編輯:快訊團隊 IP:北京 發表評論無障礙通道

阿里巴巴集團于本周二震撼發布了其旗艦人工智能模型Qwen 3,標志著AI領域的一次重大飛躍。這款新一代模型以卓越的混合推理能力為核心,重新定義了AI的邊界。

Qwen3-235B-A22B版本擁有2350億參數,但在運行時僅需激活220億參數,這一設計使其參數規模僅為DeepSeek-R1的三分之一左右,卻能在性能上超越DeepSeek-R1和OpenAI-o1等頂尖模型,成為全球最強大的開源模型。

這一發布正值中國AI領域競爭激烈之際,本土初創企業DeepSeek的迅速崛起為市場增添了新的活力。今年早些時候,DeepSeek宣稱能以更低的成本提供高性能模型,挑戰西方競爭對手。

與此同時,中國搜索引擎巨頭百度也不甘落后,于上周五推出了Ernie 4.5 Turbo和針對推理優化的Ernie X1 Turbo模型,進一步加劇了市場競爭。

阿里巴巴的Qwen 3巧妙地將傳統AI任務與先進的動態推理相結合,為應用和軟件開發者提供了一個更加靈活高效的平臺。今年年初,在DeepSeek取得突破后不久,阿里巴巴迅速推出了Qwen 2.5-Max模型,并宣稱其性能卓越。

Qwen 3基于36萬億字節的龐大數據集進行訓練,并在訓練后階段經歷了多輪強化學習。它實現了快速思考與慢速思考模式的無縫切換,并在推理、指令遵循、工具使用和多語言能力等方面實現了顯著提升,為國內外開源模型樹立了新的性能標桿。

Qwen 3系列共包含八個模型,其中包括兩個參數分別為300億和2350億的MoE(專家混合)模型,以及六個參數從0.6億到320億不等的密集模型。每個模型在其參數規模類別中均達到了開源模型的頂尖水平。

值得注意的是,Qwen3的300億參數MoE模型在模型效率上實現了超過10倍的提升,僅需激活30億參數即可媲美上一代Qwen2.5-32B模型的性能。同時,Qwen3的密集模型繼續突破極限,以一半的參數數量實現了高性能。例如,Qwen3的320億版本在性能上超越了Qwen2.5-72B模型。

4月成為大型模型發布密集的一個月。OpenAI推出了GPT-4.1 o3和o4 mini系列模型,谷歌發布了Gemini 2.5 Flash Preview混合推理模型,而Doubao則宣布了其1.5·Deep Thinking模型。行業內的其他主要玩家也開源或更新了眾多模型。甚至有傳言稱DeepSeek R2即將發布,盡管這些報道大多仍屬猜測。

無論DeepSeek R2是否發布,Qwen3已經搶占了先機,成為大型模型“普及化”的真正起點。

Qwen 3模型支持兩種獨特的推理模式:慢速思考模式和快速思考模式。在慢速思考模式下,模型進行逐步推理,經過深思熟慮后給出最終答案,適用于解決復雜問題。而在快速思考模式下,模型能夠迅速給出幾乎即時的回應,適合處理簡單且需要快速響應的問題。

所有Qwen 3模型均為混合推理模型,在中國尚屬首次。這種創新設計將“快速思考”和“慢速思考”整合到單個模型中。對于簡單任務,它可以以較低的計算能力提供即時答案;而對于復雜問題,則可以進行多步“深度思考”,顯著降低了計算資源消耗。

Qwen 3的API允許用戶自定義“思考預算”(即用于深度推理的最大令牌數),使不同層次的思考過程能夠靈活滿足各種場景下AI應用的不同性能和成本要求。例如,40億參數的模型非常適合移動設備,80億參數的模型可以在計算機和汽車系統上流暢運行,而320億參數的模型則備受大型企業部署的青睞。

在衡量數學問題解決能力的AIME25評估中,Qwen 3取得了81.5分的優異成績,刷新了開源模型的記錄。在評估編碼能力的LiveCodeBench評估中,Qwen 3超過了70分的門檻,超越了Grok3。在評估與人類偏好一致性的ArenaHard評估中,Qwen 3獲得了95.6分的高分,超過了OpenAI-o1和DeepSeek-R1。

盡管性能顯著提升,但Qwen 3的部署成本卻大幅下降。Qwen 3的全功率版本僅需四臺H20 GPU即可部署,且內存使用量僅為類似性能模型的三分之一。

Qwen-3模型支持119種語言和方言。目前,這些模型已在Apache 2.0許可下開源,并可在Hugging Face、ModelScope和Kaggle等平臺上獲得。

阿里巴巴還建議使用SGLang和vLLM等框架部署模型。對于本地使用,支持Ollama、LMStudio、MLX、llama.cpp和KTransformers等工具。

Qwen-3還專注于智能代理和大型語言模型的應用。在評估代理能力的BFCL評估中,Qwen-3取得了70.8分的新高分,超越了Gemini2.5-Pro和OpenAI-o1等頂級模型。這一突破顯著降低了代理有效利用工具的門檻。

Qwen-3原生支持MCP協議,并具有強大的函數調用能力。結合包括預建工具調用模板和解析器在內的Qwen-Agent框架,它極大地降低了編碼復雜性,使代理能夠在手機和計算機上高效運行。

Qwen-3在預訓練方面相較于Qwen-2.5有了顯著擴展。Qwen-2.5基于18萬億令牌進行預訓練,而Qwen-3則幾乎將這一數字翻倍,達到了約36萬億令牌。

為了構建這一龐大的數據集,Qwen團隊不僅從互聯網上收集數據,還從PDF文檔中提取信息。例如,使用Qwen-2.5-VL從文檔中提取文本,并使用Qwen-2.5進一步提高提取內容的質量。為了增加數學和編碼數據的數量,Qwen團隊利用Qwen-2.5-Math和Qwen-2.5-Coder等專用模型合成數據,包括教科書、問答對和代碼片段等多種格式。

預訓練過程分為三個階段。在第一階段(S1),模型在超過30萬億令牌和4K令牌上下文長度的基礎上進行預訓練,為模型提供了基礎語言技能和通用知識。在第二階段(S2),Qwen團隊通過增加知識密集型數據(如STEM、編程和推理任務)的比例來改進數據集,并對模型進行了額外的5萬億令牌預訓練。

在最終階段,Qwen團隊使用高質量的長上下文數據將上下文長度擴展到32K令牌,確保模型能夠有效處理更長的輸入。

由于模型架構的改進、訓練數據的增加以及訓練方法的優化,Qwen3密集基礎模型的性能與參數更多的Qwen2.5基礎模型相當。例如,Qwen3-1.7B/4B/8B/14B/32B-Base的性能與Qwen2.5-3B/7B/14B/32B/72B-Base相當。值得注意的是,在STEM、編碼和推理等領域,Qwen3密集基礎模型甚至超越了更大規模的Qwen2.5模型。

至于Qwen3的MoE基礎模型,它們在性能上與Qwen2.5的密集基礎模型相當,但激活的參數僅為10%。這大大節省了訓練和推理成本。

在訓練后階段,為了開發一款同時具備推理和快速響應能力的混合模型,Qwen團隊實施了四階段訓練過程,包括:(1)長推理鏈的冷啟動,(2)長推理鏈的強化學習,(3)推理模式的整合,以及(4)通用強化學習。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 铁力市| 凌云县| 谢通门县| 九江县| 厦门市| 河西区| 尉犁县| 中阳县| 禄丰县| 通城县| 东莞市| 聊城市| 霍林郭勒市| 宁都县| 全南县| 仙桃市| 淳化县| 郧西县| 莆田市| 青冈县| 崇阳县| 阜城县| 恩平市| 融水| 赫章县| 通江县| 秦皇岛市| 临高县| 恭城| 宁波市| 大兴区| 沅陵县| 贵溪市| 衡阳市| 灵丘县| 崇文区| 高碑店市| 赤峰市| 崇州市| 惠水县| 丹阳市|