小米公司近日宣布,正式開源其自主研發的首個原生端到端語音大模型——Xiaomi-MiMo-Audio。這一成果被視為語音技術領域的重要里程碑,標志著語音模型首次實現了與語言模型相當的少樣本泛化能力,為語音通用人工智能(AGI)的發展開辟了新路徑。
長期以來,語音技術發展受制于對大規模標注數據的依賴,難以像語言模型那樣通過少量樣本快速適應新任務。小米團隊通過創新預訓練架構,利用超過1億小時的語音數據進行無損壓縮訓練,使模型在預訓練階段展現出顯著的“涌現”能力,即通過上下文學習(In-Context Learning)實現跨任務泛化。這一突破被業內稱為語音領域的“GPT-3時刻”。
在性能評測中,Xiaomi-MiMo-Audio表現亮眼。該模型在音頻理解基準MMAU測試集上超越了谷歌的閉源模型Gemini-2.5-Flash,在音頻復雜推理基準Big Bench Audio S2T任務中則超過了OpenAI的GPT-4o-Audio-Preview。這些成績不僅體現了小米的技術實力,也為語音AI性能評估提供了新的參考標準。
小米此次開源的內容涵蓋多個層面:包括70億參數的預訓練模型MiMo-Audio-7B-Base和指令微調模型MiMo-Audio-7B-Instruct,配套的無損壓縮Tokenizer模型,詳細的技術報告以及評估框架。其中,Tokenizer模型采用Transformer架構,參數量達12億,通過千萬小時級語音數據訓練,可同時支持音頻重建和文本轉換任務。指令微調模型則具備獨特的“思考模式”,可通過提示詞切換非思考與思考狀態,為語音強化學習研究提供了新的基座。
作為語音領域首個明確預訓練目標并開源完整方案的企業,小米此次行動具有雙重意義。技術層面,其提出的語音生成式預訓練框架,包含從數據壓縮到模型結構的全套解決方案,被視為語音領域的“LLaMA時刻”;產業層面,開源策略將促進語音研究社區的協同發展,加速語音大模型與語言大模型的技術對齊。
目前,小米已將相關模型和工具上傳至Hugging Face平臺,技術報告詳細披露了訓練細節,評估框架則支持超過10項測評任務。公司表示,將持續推進語音技術開源,期待通過開放協作推動人機交互方式的革新,為語音AI進入“奇點”時代奠定基礎。