阿里旗下Qwen團隊近期動作頻頻,接連推出兩款頗具影響力的AI模型——Qwen3-Omni與Qwen-Image-Edit-2509,引發行業廣泛關注。據透露,該團隊還預告將有新的重要發布,進一步點燃了市場的期待。
Qwen3-Omni的誕生,標志著AI多模態處理領域的一次重大突破。傳統多模態模型往往需要在不同能力間做出權衡,而Qwen3-Omni則實現了文本、圖像、音頻和視頻處理能力的無縫統一,成為真正意義上的全能AI模型。這一創新,解決了長期以來困擾行業的多模態能力整合難題。
在性能表現上,Qwen3-Omni堪稱卓越。在36項音頻及音視頻基準測試中,該模型有22項達到了業界頂尖水平,展現了其強大的技術實力。同時,它支持119種語言的文本處理、19種語言的語音輸入以及10種語言的語音輸出,語言能力覆蓋廣泛,具有高度的全球化特征。
除了強大的性能,Qwen3-Omni還具備極致的效率和高度可控性。其延遲僅為211毫秒,并能輕松理解長達30分鐘的音頻內容,這在同類模型中極為罕見。它支持通過系統提示詞進行完全自定義,滿足用戶的個性化需求,并內置了工具調用功能,可與其他應用和服務輕松集成。
為了推動技術發展和應用創新,Qwen團隊還開源了多個Qwen3-Omni版本,包括Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking以及Qwen3-Omni-30B-A3B-Captioner等。這些開源版本旨在賦能全球開發者,探索從指令遵循到創意任務等多樣化的應用場景。同時,團隊還開源了一個低幻覺的Captioner(字幕生成)模型,為音視頻內容處理提供了可靠工具。
在圖像編輯領域,Qwen團隊同樣帶來了驚喜。Qwen-Image-Edit-2509作為Qwen-Image的升級版本,在一致性上實現了巨大提升。該模型支持多圖編輯和無縫融合功能,用戶可以將“人物+產品”或“人物+場景”等多張圖片拖入編輯,保持一致性同時進行推理。
在單圖編輯方面,Qwen-Image-Edit-2509同樣表現出色。它能夠實現人臉保真、產品保真以及文字編輯等功能。無論變換姿勢、濾鏡還是風格,人物的面部特征始終保持一致;在廣告、海報等應用中,產品能維持其核心特征,確保品牌識別度;同時,它還支持對圖像中的文字進行全面修改,包括內容、字體、顏色,甚至材質紋理。
Qwen-Image-Edit-2509還內置了強大的ControlNet功能,讓用戶可以即插即用,實現對圖像生成的精準控制。這一功能在深度、邊緣、關鍵點等方面提供了強大的支持,進一步提升了圖像編輯的靈活性和準確性。