谷歌近日發(fā)布了一項(xiàng)突破性技術(shù)——Gemini 2.5 Flash原生音頻模型,將AI語(yǔ)音交互推向了全新高度。這項(xiàng)技術(shù)不僅實(shí)現(xiàn)了實(shí)時(shí)語(yǔ)音翻譯,還能精準(zhǔn)捕捉并復(fù)刻說話者的語(yǔ)調(diào)、節(jié)奏和情感,讓AI對(duì)話更加自然流暢,仿佛與真人交流一般。
想象一下這樣的場(chǎng)景:你漫步在異國(guó)街頭,周圍是陌生的語(yǔ)言和嘈雜的環(huán)境。一位當(dāng)?shù)厝送蝗挥梅窖韵蚰銌柭罚Z(yǔ)速急促且?guī)е箲]。過去,你可能需要手忙腳亂地打開翻譯軟件,等待機(jī)械化的語(yǔ)音輸出。而現(xiàn)在,只需佩戴耳機(jī),就能立刻聽到用母語(yǔ)流暢翻譯的問候,甚至能感受到對(duì)方急切的情緒。更神奇的是,你的回答也會(huì)被自動(dòng)轉(zhuǎn)換成對(duì)方的語(yǔ)言,并保留你的語(yǔ)氣和表達(dá)方式。這種無縫的跨語(yǔ)言交流體驗(yàn),正是谷歌最新推出的Gemini 2.5 Flash原生音頻模型帶來的變革。
與傳統(tǒng)語(yǔ)音交互技術(shù)不同,Gemini 2.5 Flash原生音頻模型跳過了“語(yǔ)音轉(zhuǎn)文字-AI處理-文字轉(zhuǎn)語(yǔ)音”的繁瑣流程,直接實(shí)現(xiàn)“聽-想-說”的無縫銜接。這種原生處理方式不僅大幅提升了響應(yīng)速度,還能完整保留人類交流中的微妙細(xì)節(jié),如語(yǔ)氣、停頓和情感。例如,當(dāng)對(duì)方用歡快的語(yǔ)調(diào)提問時(shí),翻譯后的聲音也會(huì)充滿活力;若對(duì)方語(yǔ)氣低沉猶豫,回復(fù)中也會(huì)自然流露出遲疑。這種情感層面的精準(zhǔn)傳遞,在商務(wù)談判或敏感對(duì)話中尤為重要。
目前,這項(xiàng)技術(shù)的實(shí)時(shí)語(yǔ)音翻譯功能已在美國(guó)、墨西哥和印度的安卓設(shè)備上開啟Beta測(cè)試,iOS版本也將陸續(xù)推出。其核心優(yōu)勢(shì)包括:支持70多種語(yǔ)言和2000多個(gè)語(yǔ)言對(duì),覆蓋全球主流語(yǔ)言;具備多語(yǔ)言混輸能力,可同時(shí)處理對(duì)話中的多種語(yǔ)言;針對(duì)嘈雜環(huán)境優(yōu)化,具備強(qiáng)大的噪聲過濾能力;以及獨(dú)特的風(fēng)格遷移功能,能完美復(fù)刻說話者的情緒和表達(dá)方式。雙向?qū)υ捘J娇勺詣?dòng)識(shí)別說話者,無需手動(dòng)切換,真正實(shí)現(xiàn)“無感”翻譯。
對(duì)于開發(fā)者而言,Gemini 2.5 Flash原生音頻模型同樣帶來了重大突破。在函數(shù)調(diào)用方面,新模型能更精準(zhǔn)地獲取實(shí)時(shí)信息,并將數(shù)據(jù)無縫融入對(duì)話,避免打斷交流流暢性。在指令遵循測(cè)試中,其準(zhǔn)確率從84%提升至90%,可更可靠地執(zhí)行復(fù)雜指令。同時(shí),多輪對(duì)話能力顯著增強(qiáng),能更有效地記憶上下文,保持對(duì)話連貫性和邏輯性。這些提升使得構(gòu)建企業(yè)級(jí)AI客服的門檻大幅降低,開發(fā)者可輕松創(chuàng)建能聽、能說、能辦事的智能助手。
除了原生音頻模型,谷歌還推出了一項(xiàng)實(shí)驗(yàn)性工具——Disco。這款來自Google Labs的產(chǎn)品內(nèi)置了基于Gemini 3打造的GenTabs功能,可主動(dòng)理解用戶需求,將雜亂的標(biāo)簽頁(yè)和聊天記錄轉(zhuǎn)化為交互式網(wǎng)絡(luò)應(yīng)用。例如,用戶只需簡(jiǎn)單描述需求,如“制定周餐計(jì)劃”或“教孩子認(rèn)識(shí)行星”,Disco就能自動(dòng)生成專屬工具,無需編寫代碼。目前,macOS版本已開放排隊(duì)體驗(yàn),盡管仍處于早期階段,但已展現(xiàn)出將“瀏覽”升級(jí)為“創(chuàng)造”的潛力。











