據(jù) AIbase 報(bào)道,谷歌本周宣布為其原生音頻模型 Gemini2.5Flash Native Audio 推出重大更新,旨在將 AI 交互從簡(jiǎn)單的“文本轉(zhuǎn)語(yǔ)音”跨越到真正的擬人化實(shí)時(shí)交流。
此次更新的核心在于“原生”處理能力。不同于傳統(tǒng) AI 需要先將語(yǔ)音轉(zhuǎn)為文字再處理的繁瑣流程,該模型能夠直接感知聲音中的語(yǔ)調(diào)、情感和停頓,從而實(shí)現(xiàn)更自然流暢的對(duì)話。
谷歌數(shù)據(jù)顯示,新版本對(duì)開發(fā)者指令的遵循率已從84% 躍升至 90%,在處理多步驟工作流時(shí)展現(xiàn)出更高的精準(zhǔn)度。在音頻基準(zhǔn)測(cè)試 ComplexFuncBench 中,其函數(shù)調(diào)用準(zhǔn)確率達(dá)到 71.5%,超越了 OpenAI gpt-realtime(66.5%)的表現(xiàn),顯示出在實(shí)時(shí)語(yǔ)音代理(Live Voice Agents)領(lǐng)域的強(qiáng)勁競(jìng)爭(zhēng)力。
目前,這項(xiàng)技術(shù)已全面接入 Google AI Studio、Vertex AI、Gemini Live 以及 Search Live。開發(fā)者現(xiàn)可通過 Gemini API 體驗(yàn)這一升級(jí)版模型,利用其更強(qiáng)的一致性和多輪對(duì)話記憶能力,構(gòu)建更可靠、更具情緒感知力的 AI 助手。









