滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內(nèi)容

阿里云深夜發(fā)布重磅開源：Qwen3-Omni等多款AI工具亮相，多模態(tài)與TTS能力再升級

時間：2025-09-23 09:34:57 來源：小AI編輯：快訊 IP：北京 發(fā)表評論無障礙通道

阿里云今日宣布開源三項重要AI技術成果，包括全球首個原生端到端全模態(tài)AI模型Qwen3-Omni、多語言文本轉語音系統(tǒng)Qwen3-TTS，以及圖像編輯工具Qwen-Image-Edit-2509。這些創(chuàng)新成果在多模態(tài)處理、語音合成和圖像編輯領域取得突破性進展。

Qwen3-Omni作為業(yè)界首個原生全模態(tài)模型，實現(xiàn)了文本、圖像、音頻、視頻的統(tǒng)一處理能力。該模型通過混合預訓練架構，在保持單模態(tài)性能的同時，顯著提升了跨模態(tài)處理能力。在36項音視頻基準測試中，22項達到全球領先水平，其中32項在開源社區(qū)保持優(yōu)勢。特別在自動語音識別和語音對話場景中，其表現(xiàn)可與Gemini 2.5 Pro相媲美。模型支持119種文本語言、19種語音輸入語言和10種語音輸出語言，涵蓋英語、中文、阿拉伯語等主要語種，以及粵語、閩南語等8種中國方言。

技術架構方面，Qwen3-Omni采用創(chuàng)新的"思考者-表達者"MoE設計，結合AuT預訓練技術強化通用表征能力。多碼本設計使系統(tǒng)延遲降低至行業(yè)領先水平，支持實時流式交互。用戶可通過系統(tǒng)提示詞實現(xiàn)行為定制，滿足不同場景需求。同步開源的Qwen3-Omni-30B-A3B-Captioner音頻描述模型，在細節(jié)還原和準確性方面樹立新標桿。

在語音合成領域，Qwen3-TTS系統(tǒng)支持17種專業(yè)音色，每種音色覆蓋10種語言，包括普通話、英語、法語等主流語言，以及閩南語、四川話等8種方言。最新發(fā)布的Qwen3-TTS-Flash版本在語音穩(wěn)定性和音色相似度上超越SeedTTS、Elevenlabs等主流系統(tǒng)。性能測試顯示，其雙卡并發(fā)處理能力較前代提升50%，首包延遲縮短至97ms，實時因子(RTF)指標達到0.30，處于行業(yè)領先水平。

圖像編輯工具Qwen-Image-Edit-2509實現(xiàn)重大升級，通過圖像拼接技術拓展多圖編輯能力。該版本支持"人物+場景"、"產(chǎn)品+背景"等復合編輯模式，在1-3張圖像輸入時效果最佳。單圖編輯方面，人臉特征保留精度提升40%，支持風格化變換和姿勢調(diào)整；產(chǎn)品編輯可精準維持商品特征，適用于電商海報制作；文字編輯新增字體、顏色、材質(zhì)修改功能。系統(tǒng)原生集成ControlNet，支持深度圖、邊緣圖等專業(yè)控制方式。

配套開源的Qwen3-Next-80B系列模型提供指令微調(diào)和思維鏈兩個版本，采用FP8量化技術平衡性能與效率。所有模型代碼和預訓練權重已通過GitHub、HuggingFace和魔塔社區(qū)開放下載，配套演示空間同步上線，開發(fā)者可快速體驗模型能力。

09-23

六周資金連續(xù)流入！中國科技ETF受青睞，新興市場投資者看好中國股票前景

09-23

國產(chǎn)GPU新征程：摩爾線程“閃電”上會，沖刺“第一股”引關注

09-23

時間鑄就翻倍奇跡：堅守中長期持股踐行價值投資理念

09-23

轉轉關停C2C“自由市場”業(yè)務，聚焦C2B2C開啟“重資產(chǎn)”運營新篇

09-23

阿塞拜疆航空加速機隊現(xiàn)代化進程，新A320neo飛機助力提升運營與乘客體驗

09-23

空客與波音：設計理念、性能舒適度大不同，誰更懂你的飛行需求？

09-23

政策與市場雙驅動，“天價月餅”退場，行業(yè)龍頭引領健康新食尚

09-23

阿里Qwen團隊再發(fā)力：Qwen3-Omni全模態(tài)AI與Qwen-Image-Edit-2509圖像編輯工具雙雙亮相

09-23

從海龜?shù)健昂｝敗保嚎蒲袌F隊突破創(chuàng)新，開啟水下探測新紀元

這是哈爾濱工程大學船舶與工程學院王剛教授團隊研發(fā)的敏捷型水下機器人“海龜”的真實工作場景。王剛團隊將目光投向海洋生物，仔細研究了數(shù)十種海底動物后，從海龜?shù)耐七M方式中找到了靈感。在實海測試中，科研人員在海…

09-23

辛選主播管理模式革新：從簽約制轉向合伙制，僅收5%服務費共謀發(fā)展

09-23

“百城萬圈”繪就民生新圖景：聚焦“一老一小” 激活消費與就業(yè)雙引擎

09-23

深圳560億市值央企換帥：原高管卸任總裁，新總裁于吉永接棒

09-23

“中國英偉達”摩爾線程沖刺上市，能否在芯片市場突圍破局？

09-23

留置30天迅速解除，浙工大教授兼企業(yè)掌舵人11億資產(chǎn)經(jīng)得起核查

09-23

點擊查看更多 +

全站最新

?9月25日雷軍年度演講攜小米17系列登場！vivo X300系列10月13日發(fā)布全配色揭曉?

雷軍官宣小米17系列將發(fā)布同步透露年度演講主題網(wǎng)友直呼期待

?雷軍轉發(fā)回應！小米召回超11萬輛SU7標準版，將OTA升級并新增動態(tài)車速功能?

?小米召回超11萬輛SU7標準版，雷軍轉發(fā)回應：軟件OTA升級即可消除隱患?

小米SU7再迎召回！涉及部分標準版車型，OTA升級提升輔助駕駛可靠性

比亞迪唐DMI加推版入手前必看！這七個冷知識助你避坑又省錢

熱門內(nèi)容

本欄最新

NVIDIA50億美元投資Intel，臺積電風險可控，先進制程優(yōu)勢或延續(xù)至2030年

復旦團隊繪制代謝組圖譜：解鎖疾病早期預警密碼，助力精準醫(yī)療

國慶中秋假期將至，租臺無人機記錄美好旅程成熱門新選擇

國慶假期出行新選擇：無人機租賃受熱捧，3C數(shù)碼租賃市場火熱升溫

字節(jié)跳動凌晨發(fā)聲：TikTok美國業(yè)務將依法推進，服務美國用戶不停歇

對話松延動力姜哲源：25歲團隊如何從創(chuàng)業(yè)民房走向“千臺俱樂部”并沖刺交付？

本網(wǎng)站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務。如本站內(nèi)容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

阿里云深夜發(fā)布重磅開源：Qwen3-Omni等多款AI工具亮相，多模態(tài)與TTS能力再升級

日本精品一区二区三区高清久久