阿里云今日宣布開源三項重要AI技術成果,包括全球首個原生端到端全模態(tài)AI模型Qwen3-Omni、多語言文本轉語音系統(tǒng)Qwen3-TTS,以及圖像編輯工具Qwen-Image-Edit-2509。這些創(chuàng)新成果在多模態(tài)處理、語音合成和圖像編輯領域取得突破性進展。
Qwen3-Omni作為業(yè)界首個原生全模態(tài)模型,實現(xiàn)了文本、圖像、音頻、視頻的統(tǒng)一處理能力。該模型通過混合預訓練架構,在保持單模態(tài)性能的同時,顯著提升了跨模態(tài)處理能力。在36項音視頻基準測試中,22項達到全球領先水平,其中32項在開源社區(qū)保持優(yōu)勢。特別在自動語音識別和語音對話場景中,其表現(xiàn)可與Gemini 2.5 Pro相媲美。模型支持119種文本語言、19種語音輸入語言和10種語音輸出語言,涵蓋英語、中文、阿拉伯語等主要語種,以及粵語、閩南語等8種中國方言。
技術架構方面,Qwen3-Omni采用創(chuàng)新的"思考者-表達者"MoE設計,結合AuT預訓練技術強化通用表征能力。多碼本設計使系統(tǒng)延遲降低至行業(yè)領先水平,支持實時流式交互。用戶可通過系統(tǒng)提示詞實現(xiàn)行為定制,滿足不同場景需求。同步開源的Qwen3-Omni-30B-A3B-Captioner音頻描述模型,在細節(jié)還原和準確性方面樹立新標桿。
在語音合成領域,Qwen3-TTS系統(tǒng)支持17種專業(yè)音色,每種音色覆蓋10種語言,包括普通話、英語、法語等主流語言,以及閩南語、四川話等8種方言。最新發(fā)布的Qwen3-TTS-Flash版本在語音穩(wěn)定性和音色相似度上超越SeedTTS、Elevenlabs等主流系統(tǒng)。性能測試顯示,其雙卡并發(fā)處理能力較前代提升50%,首包延遲縮短至97ms,實時因子(RTF)指標達到0.30,處于行業(yè)領先水平。
圖像編輯工具Qwen-Image-Edit-2509實現(xiàn)重大升級,通過圖像拼接技術拓展多圖編輯能力。該版本支持"人物+場景"、"產(chǎn)品+背景"等復合編輯模式,在1-3張圖像輸入時效果最佳。單圖編輯方面,人臉特征保留精度提升40%,支持風格化變換和姿勢調(diào)整;產(chǎn)品編輯可精準維持商品特征,適用于電商海報制作;文字編輯新增字體、顏色、材質(zhì)修改功能。系統(tǒng)原生集成ControlNet,支持深度圖、邊緣圖等專業(yè)控制方式。
配套開源的Qwen3-Next-80B系列模型提供指令微調(diào)和思維鏈兩個版本,采用FP8量化技術平衡性能與效率。所有模型代碼和預訓練權重已通過GitHub、HuggingFace和魔塔社區(qū)開放下載,配套演示空間同步上線,開發(fā)者可快速體驗模型能力。