小米近日宣布,正式開源其首個原生端到端語音模型Xiaomi-MiMo-Audio。該模型依托創新的預訓練架構與海量訓練數據,在語音領域首次實現了基于ICL(上下文學習)的少樣本泛化能力,并在預訓練階段展現出顯著的“涌現”特性。
據技術團隊披露,Xiaomi-MiMo-Audio在多項權威評測中表現亮眼。在通用語音理解與對話任務的標準基準測試中,該模型以70億參數規模超越了同量級的開源模型,創下該參數規模下的最佳性能紀錄。其核心優勢在于通過創新的預訓練方法,顯著提升了模型對復雜語音場景的適應能力。
在音頻理解專項評測MMAU標準測試集上,Xiaomi-MiMo-Audio的得分超過Google旗下閉源語音模型Gemini-2.5-Flash。這一突破標志著開源模型在專業音頻理解領域首次實現對商業閉源模型的超越,為語音技術研究提供了新的參考范式。
面對高難度音頻推理任務時,該模型同樣展現出強勁實力。在Big Bench Audio S2T基準測試中,Xiaomi-MiMo-Audio的性能指標超越了OpenAI開發的閉源語音模型GPT-4o-Audio-Preview。這項成就驗證了模型在處理復雜語音推理任務時的技術優勢,特別是在多模態語音交互場景中的創新能力。