在實時互動技術領域,聲網正憑借對話式AI戰略掀起新的浪潮。近期,這家以實時音視頻技術為核心的企業宣布年度服務分鐘數突破萬億大關,同時發布多款對話式AI相關產品,引發行業關注。其戰略轉型的背后,既有技術迭代的驅動,也暗含對市場趨勢的精準把握。
聲網的戰略轉向并非偶然。2024年,OpenAI通過ChatGPT的語音交互功能及與聲網合作推出的Realtime API,為行業樹立了標桿。聲網AI RTE產品線負責人姚光華透露,正是看到對話式AI在C端和B端市場的爆發潛力,公司決定將資源向該領域傾斜。數據顯示,全球67%的企業已將語音AI智能體納入戰略核心,84%計劃加大投入,這為聲網提供了廣闊的市場空間。
技術層面,對話式AI的實現需要多環節協同。MiniMax開放平臺解決方案高級總監馮雯解釋,系統需通過Voice Agent判斷說話者身份,經ASR(自動語音識別)轉化內容后,由大語言模型處理,最終通過TTS(文本轉語音)輸出結果。每個環節都存在優化空間,例如聲網新推出的對話式AI引擎2.0,通過支持更多ASR/TTS供應商、優化對話時機判斷等功能,顯著提升了用戶體驗。
圍繞對話場景,聲網構建了完整的產品矩陣。對話式AI Studio平臺允許用戶通過編排或API集成方式快速開發應用;模型評測平臺則根據延遲、成本等指標為客戶推薦最優方案;開發套件進一步降低了集成門檻。這些工具已應用于多個熱門領域:AI語音助手(如ChatGPT、豆包)、社交陪伴(如Talkie、Soul)及智能潮玩(如珞博-Fuzozo)均位列聲網發布的場景熱力榜前三。
盡管市場前景廣闊,挑戰依然存在。馮雯指出,當前對話式AI的端到端延遲仍需優化,800毫秒是合理目標,但未來需進一步壓縮。行業調研顯示,僅21%的用戶對現有AI對話體驗滿意,用戶流失率居高不下。根本原因在于,人類對話中超90%的信息通過語調、表情等非語言要素傳遞,而現有技術對情感理解、上下文管理等復雜場景的應對仍顯不足。
聲網創始人趙斌將對話式AI視為下一代AI基礎設施的核心組成部分。市場數據支撐了這一判斷:AI陪伴賽道規模有望從3000萬美元躍升至700億-1500億美元。聲網相關用量在2025年第三季度環比增長151%,顯示出強勁增長勢頭。財務表現上,公司2025年二季度營收3430萬美元,同比增長0.5%,凈利潤150萬美元,實現扭虧為盈。
這場轉型能否持續?聲網的選擇既面臨機遇,也需應對巨頭競爭。其優勢在于深耕實時互動技術多年,構建了低延遲、高并發的技術底座;挑戰則在于如何將技術優勢轉化為商業成功。隨著對話式AI從概念走向落地,聲網與同行正站在一個充滿不確定性的新起點上。











