在RTE 2025實時互聯(lián)網(wǎng)大會的開幕演講中,聲網(wǎng)創(chuàng)始人兼CEO趙斌宣布了一項重要里程碑:聲網(wǎng)年度服務(wù)分鐘數(shù)首次突破一萬億分鐘。這一數(shù)據(jù)不僅印證了RTE(實時互動)技術(shù)的普及程度,更表明其已成為支撐現(xiàn)代數(shù)字社會的關(guān)鍵基礎(chǔ)設(shè)施。伴隨這一突破,行業(yè)正經(jīng)歷著從基礎(chǔ)連接向深度交互的轉(zhuǎn)型,而技術(shù)創(chuàng)新與市場需求正共同推動這一進程加速演進。

視頻技術(shù)的升級為行業(yè)變革提供了直觀注腳。數(shù)據(jù)顯示,過去兩年間,高清視頻占比增長超十倍,海外市場720p以上分辨率流量已占據(jù)總流量的80%以上。與此同時,WebRTC技術(shù)的全球搜索熱度呈現(xiàn)指數(shù)級攀升,反映出開發(fā)者與用戶對實時互動解決方案的強烈需求。這種技術(shù)普及與體驗升級的雙重驅(qū)動,正將行業(yè)推向新的創(chuàng)新周期。
然而,技術(shù)進步的背后仍存在顯著挑戰(zhàn)。當交互場景從人與人擴展至人與AI,現(xiàn)有系統(tǒng)在環(huán)境感知與交互自然度方面的缺陷愈發(fā)凸顯。行業(yè)調(diào)研顯示,僅21%的用戶對當前AI對話體驗感到滿意,部分服務(wù)的用戶流失率甚至達到不可接受的水平。這一矛盾源于人類溝通的復(fù)雜性——語言內(nèi)容僅占信息總量的7%,而語調(diào)、表情、肢體動作等非語言要素承擔(dān)著超過90%的感知功能。要實現(xiàn)真正的類人對話,企業(yè)需攻克低延遲響應(yīng)、自然打斷、上下文管理、情感理解與表達等技術(shù)難題。
多模態(tài)大語言模型(LLM)的崛起為破解這些挑戰(zhàn)提供了新路徑。通過整合語音、視覺、文本等多維度信息,這類模型使計算機具備了模擬人類實時對話的能力。趙斌指出,對話式AI正在推動RTE技術(shù)從“能對話”向“有溫度”的關(guān)鍵躍遷,這一轉(zhuǎn)變將創(chuàng)造一個規(guī)模難以估量的新市場。技術(shù)突破與商業(yè)價值的雙重驅(qū)動,正吸引全球資本與人才加速涌入這一領(lǐng)域。
市場數(shù)據(jù)印證了這一趨勢的強勁勢頭。Deepgram與Opus Research的聯(lián)合調(diào)研顯示,67%的企業(yè)已將語音AI智能體納入戰(zhàn)略核心,84%的企業(yè)計劃在未來一年增加相關(guān)投入。開發(fā)者生態(tài)方面,Y Combinator最新孵化批次中,語音智能體公司占比顯著提升;ARK Invest預(yù)測,AI陪伴賽道市場規(guī)模有望從3000萬美元擴張至700-1500億美元。聲網(wǎng)內(nèi)部數(shù)據(jù)亦顯示,其對話式AI相關(guān)用量在2025年第三季度實現(xiàn)151%的環(huán)比增長,反映出市場需求的爆發(fā)式增長。
在應(yīng)用場景層面,情感陪伴、智能硬件、在線教育三大領(lǐng)域?qū)⒙氏葘崿F(xiàn)規(guī)模化落地。大會現(xiàn)場演示的AI客服系統(tǒng),通過實時語音交互與場景理解能力,展現(xiàn)了技術(shù)突破帶來的體驗升級。這類應(yīng)用不僅需要精準的語義理解,更依賴對用戶情緒、語境的動態(tài)感知,標志著對話式AI正從工具屬性向情感連接層面延伸。
為助力行業(yè)把握這一機遇,聲網(wǎng)在大會上發(fā)布了《2025對話式AI發(fā)展白皮書》與《對話式AI好奇者手冊》,系統(tǒng)梳理了技術(shù)架構(gòu)、開發(fā)流程與商業(yè)實踐。同時推出的對話式AI引擎2.0、開發(fā)套件、模型評測平臺及AI Studio工具鏈,形成了從底層技術(shù)到應(yīng)用落地的完整解決方案。這些舉措旨在降低開發(fā)門檻,加速技術(shù)普及,推動RTE與AI的深度融合。

從萬億分鐘的服務(wù)規(guī)模到多模態(tài)技術(shù)的突破,從資本市場的熱烈追捧到應(yīng)用場景的持續(xù)拓展,實時互動行業(yè)正站在新的歷史起點。隨著RTE與AI的深度融合,一個更自然、更智能、更富情感的數(shù)字交互時代正在到來。這場變革不僅將重塑技術(shù)格局,更將重新定義人類與數(shù)字世界的互動方式。







