阿里旗下Qwen團隊近日動作頻頻,接連推出兩款具有突破性的AI模型——Qwen3-Omni與Qwen-Image-Edit-2509,引發業界廣泛關注。其中,Qwen3-Omni作為全球首個原生端到端全模態AI模型,標志著多模態技術進入全新發展階段。
Qwen3-Omni的核心突破在于其“一體化”設計理念。傳統多模態模型常面臨文本、圖像、音視頻處理能力難以平衡的困境,而該模型通過統一架構實現了四大模態的無縫融合。在性能測試中,該模型在36項音視頻基準中22項達到行業頂尖水平,尤其在長音頻理解方面表現突出——可精準解析長達30分鐘的語音內容,響應延遲僅211毫秒。
語言支持能力成為另一大亮點。模型支持119種語言的文本處理、19種語言的語音輸入及10種語言的語音輸出,覆蓋全球主要語言體系。其高度可控的特性允許開發者通過系統提示詞自定義模型行為,配合內置的工具調用功能,可輕松對接各類應用服務。更值得關注的是,團隊同步開源了低幻覺字幕生成模型,為音視頻內容處理提供可靠解決方案。
開發團隊已開放多個模型版本供全球開發者使用,包括Qwen3-Omni-30B-A3B-Instruct等指令遵循模型及創意任務模型。開發者可通過Hugging Face平臺獲取相關資源,web端體驗入口也同步開放,用戶可實時測試模型性能。
同步推出的Qwen-Image-Edit-2509則聚焦圖像編輯領域,在一致性控制方面實現重大突破。該模型支持多圖協同編輯,可將人物與產品、場景等不同元素無縫融合,同時保持視覺一致性。單圖編輯功能同樣強大:人臉特征在姿勢變換、濾鏡調整等操作中保持高度穩定;廣告產品可維持核心設計元素;文字編輯支持內容、字體、顏色及材質的全維度修改。
技術層面,模型內置的ControlNet功能成為關鍵創新。開發者可通過深度圖、邊緣檢測等控制參數,實現對圖像生成的精準調控。這種“即插即用”的設計大幅降低了專業編輯的技術門檻,使復雜圖像處理變得更為簡便。
據開發團隊透露,Qwen-Image-Edit-2509的發布標志著圖像生成技術進入精細化控制時代。其詳細技術說明與案例演示已通過官方博客對外公布,包含多組對比實驗數據及實際應用場景展示。
兩款模型的推出不僅展現了阿里在AI領域的技術積累,更通過開源策略推動行業生態發展。隨著更多開發者參與模型優化與應用拓展,全模態AI技術的商業化落地進程有望進一步加速。