百度近期在人工智能領域取得了新的重大進展,正式推出了全球首個雙數字人互動直播間技術。這一創新基于其先進的文心大模型4.5Turbo(簡稱4.5T),通過高度融合的語言、聲音和形象多模態技術,實現了數字人與用戶間的無縫互動,為直播行業樹立了新的標桿。
該直播間內,兩位數字人主播協同工作,展示了強大的語言生成、語音合成及虛擬形象實時渲染能力。無論是進行實時對話、表達豐富情感,還是與觀眾進行動態互動,數字人都表現得極為自然,幾乎難以與真人區分。這一技術背后,是文心4.5T的多模態聯合建模能力,它能同時處理文本、圖像和音頻的輸入輸出,確保聲音與口型、表情與語義的高度同步。
與傳統數字人相比,百度雙數字人直播間在交互性方面實現了顯著提升。數字人不僅能根據用戶提問迅速生成回答,還能通過情感分析調整語氣和表情,甚至在直播中即興表演或協同解說。這種多模態技術的協同優化,使得直播內容更具吸引力和沉浸感,為電商、娛樂、教育等多個領域帶來了全新的內容創作模式。
文心大模型4.5T作為這一創新的核心驅動力,展現了其在多模態理解和跨模態遷移能力上的卓越表現。據網絡資料顯示,該模型在理解、生成、邏輯推理和記憶四大核心能力上均有所升級,超越了包括OpenAI GPT-4.5在內的競品。文心4.5T通過多模態聯合建模,實現了對多種數據類型的統一處理,推理速度提升30%,訓練成本降低80%,API調用價格僅為GPT-4.5的1%,為企業和開發者提供了極具性價比的解決方案。
文心4.5T還引入了自反饋增強技術框架,通過閉環迭代顯著降低了模型幻覺,提升了復雜任務的處理能力。這一技術的推出,不僅降低了內容制作成本,還提升了內容的多樣性和個性化。例如,在電商直播中,數字人可全天候在線,自動生成符合品牌風格的營銷文案和互動內容;在教育領域,數字人主播則可通過多模態技術為學生提供更加生動的學習體驗。
百度智能云千帆平臺已上線文心4.5T的API接口,企業用戶可通過低代碼配置快速開發定制化智能應用。百度還計劃于2025年6月30日開源文心4.5系列,這將進一步降低技術門檻,推動多模態AI技術在各行業的廣泛應用。這一舉措不僅有助于中小企業和開發者的技術創新,也為多模態AI技術在文化傳承、虛擬現實等領域的應用開辟了新的道路。