百度搜索近日宣布,旗下文心助手AIGC創作能力迎來重大升級,推出覆蓋AI圖片、視頻、音樂、播客等8大模態的創作矩陣,并同步發布行業首個開放式實時互動數字人智能體。此次升級標志著搜索引擎從傳統信息檢索工具向“全能創作與服務平臺”的深度轉型,在技術突破與生態構建上均實現跨越式發展。
在視頻生成領域,依托百度蒸汽機(文心專精)模型的技術迭代,文心助手突破了傳統AI視頻10秒左右的時長限制,實現“輸入一段話生成3分鐘故事大片”的長視頻實時交互創作。從情節設計、角色建模到鏡頭運鏡、配樂合成,全流程由AI自動完成,生成速度超越國內主流同類模型。平臺還集成了“一句話寫歌”“MV制作”“名場面模仿秀”等特色功能,搭配超30種特效模板,形成覆蓋靜態圖像處理、動態視頻制作、音頻創作的完整生態鏈。
據百度搜索相關負責人透露,文心助手用戶日均生成AIGC內容已突破千萬量級,多模態創作工具的規模化應用價值得到充分驗證。更值得關注的是,即將上線的音樂數字人分身功能將進一步打通“創作-演繹”全鏈路,實現AI從內容生成到個性化演繹的閉環。
除內容創作外,文心助手在任務解決能力上也實現關鍵升級。通過構建多工具調用引擎,用戶可一鍵觸發跨領域服務,覆蓋生活規劃、健康咨詢、教育輔導、職場辦公等核心場景。例如,家長查詢“小學生科學實驗方案”時,系統會自動整合實驗步驟文本、器材清單圖片、操作演示短視頻,并生成可打印的任務卡,避免用戶多次切換工具。
這一“需求-解決方案”的直達模式,源于文心大模型對用戶意圖的深度理解與資源調度能力。百度方面表示,該功能通過持續學習用戶交互數據,正不斷優化工具組合策略與響應效率,未來將覆蓋更多生活場景。
同期發布的開放式實時互動數字人智能體成為另一大亮點。該技術基于文心大模型4.5構建,融合NOVA數字人技術的核心優勢,具備三大特性:其一,超擬真交互體驗,通過10分鐘真人樣本數據即可復刻聲音特征、動作習慣與微表情,口型準確率與表情自然度達行業領先水平;其二,毫秒級響應能力,采用云渲染與端渲染雙引擎適配,兼容多終端場景,實時對話延遲控制在百毫秒以內;其三,開放式服務生態,目前已接入法律、情感、旅游等領域的專家數字分身,用戶可直接就專業問題展開深度對話,未來還將開放第三方開發者平臺。











