阿里云近日宣布推出三款全新AI模型,涵蓋多模態交互、語音合成及圖像編輯領域,并同步開放源代碼供開發者使用。此次發布的模型包括Qwen3-Omni全模態模型、Qwen3-TTS-Flash語音合成系統,以及Qwen-Image-Edit-2509圖像處理工具,標志著其在生成式AI技術上的進一步突破。
作為全球首個原生端到端全模態AI模型,Qwen3-Omni突破了傳統多模態系統的技術瓶頸。該模型支持文本、圖像、音頻、視頻的跨模態輸入,并可通過自然語音實現實時流式輸出。開發者無需在不同模態能力間進行權衡,即可構建支持多類型數據交互的應用程序,為智能客服、內容創作等領域提供更高效的解決方案。
在語音技術領域,Qwen3-TTS-Flash重新定義了文本轉語音的標準。該模型支持中、英、意、法四國語言的SOTA級語音識別,提供17種情感化聲線選項,并覆蓋粵語、閩南語、四川話等9種中國方言。其多語言兼容性與自然度表現,使其成為游戲配音、智能導航、多媒體內容生產等場景的理想選擇。
圖像處理方面,Qwen-Image-Edit-2509展現了強大的融合編輯能力。用戶可上傳單張圖片進行基礎處理,或通過組合“人物+產品”“人物+場景”等元素實現創意合成。模型通過智能算法分析元素特征,自動完成光影匹配與細節優化,生成符合視覺邏輯的融合圖像,為電商設計、影視特效等領域提供高效工具。
目前,這三款模型已通過阿里云平臺開放下載,開發者可基于開源代碼進行二次開發。相關技術文檔與使用案例同步上線,用戶可通過訪問AI資訊平臺獲取最新動態及行業應用方案。