語音人工智能領域的佼佼者Krisp Technologies Inc.近日震撼發布VIVA,這是一款專為語音智能助手量身打造的語音隔離AI模型及SDK(軟件開發工具包)。
據悉,VIVA已在全球范圍內,每月處理超過10億分鐘的語音音頻數據,展現了其強大的處理能力和廣泛的應用潛力。
VIVA,全稱為“Voice Intelligent Virtual Assistant Voice Isolation”,它無縫融入應用程序的音頻流程中,極大地提升了語音智能助手識別語音活動的能力。這一創新不僅優化了對話輪換機制,有效避免了不必要的中斷,還為用戶帶來了更加流暢、自然的對話體驗。
隨著消費者對AI語音交互需求的日益增長,傳統的僵化、腳本化對話模式已難以滿足現代需求。VIVA的推出,標志著語音智能助手正式邁入真實對話時代,它們能夠動態響應并適應各種上下文環境,為用戶帶來前所未有的交互體驗。
Krisp的聯合創始人兼首席執行官Davit Baghdasaryan在接受專訪時表示:“在對話中,我們稱之為對話輪換。然而,當存在背景噪音時,對話輪換就會變得異常復雜。AI很容易因此感到困惑。”他進一步解釋,對話輪換是指對話中的來回交流,即知道何時說話、何時傾聽。而VIVA的出現,正是為了解決這一問題。
在語音AI領域,對話輪換涉及檢測用戶何時停止說話以及何時適合回應,以避免中斷或長時間沉默。VIVA模型能夠在20毫秒內處理音頻,顯著提高了響應速度,將對話輪換準確性提升3.5倍,從而大幅減少通話中斷,提升客戶滿意度。
與依賴高耗能圖形處理器的模型不同,VIVA在中央處理器上高效運行,這使得它能夠在各種設備上廣泛部署。無論是嵌入運行還是與更大模型并行工作,VIVA都不會影響整體性能,這對于企業而言無疑是一個巨大的優勢。
VIVA不僅能夠提高轉錄準確性,還能在嘈雜環境中消除不相關的音頻,如背景電視聲或無關對話,從而改善自動理解和整體用戶體驗。人類交流依賴于微妙的音頻和行為線索,而VIVA正是通過識別這些線索,使語音智能助手更加智能、更加人性化。
Baghdasaryan強調:“僅從音頻中,我們就能捕捉到五、六種不同的線索。如果我們要實現人類級別的對話AI,那么AI必須能夠意識到這些線索。”他特別提到,笑聲是一個常見的問題,但VIVA已經具備去除笑聲的能力,從而避免機器人因此中斷對話。
目前,VIVA已成功集成到Decagon AI、Voxex.ai、Vapi Inc.、Ultravox.ai(前身為Fixie.ai)、LiveKit Inc.以及多家全球頂級AI實驗室的智能助手系統中,為用戶帶來了可感知的改進。
Vodex首席技術官Kumar Saurav對VIVA贊不絕口:“當我們的開發團隊展示Krisp的能力時,我們深感震撼。看到我們的機器人在嘈雜的辦公室環境中也能不間斷地工作,這對我們來說是一個真正的游戲改變者。”
隨著每月處理數十億音頻請求的里程碑達成,VIVA已蓄勢待發,準備助力開發者構建更加響應迅速、智能的語音助手,為更好的客戶支持和虛擬伙伴提供堅實基礎。