科技巨頭谷歌近日在翻譯領域邁出重要一步,將升級后的Gemini 2.5 Flash原生語音模型整合至Google翻譯,推出耳機實時語音翻譯測試版功能。這項創新突破傳統硬件限制,用戶無需購買專用設備,只需佩戴任意耳機并連接安裝Google翻譯的安卓設備,即可開啟實時翻譯服務,實現單向聆聽與雙向對話的無縫切換。
該功能的核心優勢在于"零硬件成本"與"情緒傳遞"技術。區別于蘋果AirPods Pro 3需綁定特定iPhone機型的限制,谷歌方案支持所有有線、藍牙及AI耳機,覆蓋超過70種語言和2000個語言對。更引人注目的是其語音處理能力——通過Gemini 2.5 Flash模型,翻譯不僅能保留說話者的語調、重音和節奏,還能在學術會議、跨國談判等場景中區分不同發言者。演示視頻顯示,四位使用者分別使用韓語、英語、中文和德語交流,系統可精準識別主要說話者并在對話中動態切換語言。
技術層面,新模型將準確率提升至71.5%,多輪對話質量從62%躍升至83%。盡管海外用戶反饋仍存在識別誤差,尤其在專業術語翻譯方面,但谷歌披露的數據顯示其性能已顯著優于前代。產品管理副總裁Rose Yao強調,這項技術突破使機器翻譯從"信息傳遞"升級為"情感共鳴",例如西班牙語的熱情重音或中文的含蓄語速都能被完整保留。
市場格局因此面臨重構。當前同聲傳譯領域存在三類主要方案:一是科大訊飛、時空壺等廠商的專用硬件,翻譯準確率高達95%但售價昂貴;二是蘋果生態的封閉方案,僅支持5種語言且需特定設備;三是Nebulabuds等輕量化APP,依賴第三方AI模型且需商業合作激活。谷歌的入局打破了這種平衡——其方案既無需硬件投入,又突破生態限制,雖在專業領域仍不及專用設備,但已實現"所有耳機皆可翻譯"的普及化目標。
目前該功能已向美國、墨西哥和印度的安卓用戶推送,計劃2026年擴展至iOS生態及更多地區。行業觀察者指出,這將對翻譯耳機、AI眼鏡等智能硬件造成沖擊——當實時翻譯成為基礎功能而非產品賣點,廠商需重新思考差異化競爭策略。盡管谷歌方案尚不能完全替代專業設備,但其普惠性已為翻譯技術普及開辟新路徑。










