百度搜索近日宣布,旗下文心助手AIGC創作能力迎來重大升級,推出涵蓋AI圖片、視頻、音樂、播客等八大模態的創作矩陣,并同步發布行業首個開放式實時互動數字人智能體。此次升級標志著搜索引擎從傳統信息檢索工具向“全能創作與服務平臺”的深度轉型,同時突破了多項技術瓶頸,為用戶提供更高效的創作與任務解決方案。
升級后的文心助手構建了全棧式創作能力,尤其在視頻生成領域實現核心突破。依托百度蒸汽機(文心專精)模型的技術迭代,傳統AI視頻10秒左右的時長限制被徹底打破,用戶輸入一段文字即可生成3分鐘的長視頻故事,涵蓋情節設計、角色建模、鏡頭運鏡、配樂合成等全流程,且生成速度超越國內主流同類模型。平臺還集成了“一句話寫歌”“MV制作”“名場面模仿秀”等特色功能,搭配超30種特效模板,形成覆蓋靜態圖像處理、動態視頻制作、音頻創作的完整生態鏈。
在創作場景的延伸上,文心助手已支持用戶日均生成千萬量級的AIGC內容,印證了多模態創作工具的規模化應用價值。據百度搜索相關負責人透露,后續即將上線的音樂數字人分身功能,將進一步實現“創作-演繹”的全鏈路AI賦能,為用戶提供更沉浸式的創作體驗。
除內容創作外,文心助手在任務解決能力上也實現了關鍵升級。通過構建多工具調用引擎,用戶可一鍵觸發跨領域服務,覆蓋生活規劃、健康咨詢、教育輔導、職場辦公等核心場景。例如,家長查詢“小學生科學實驗方案”時,系統可自動整合實驗步驟文本、器材清單圖片、操作演示短視頻,并生成可打印的任務卡,無需用戶多次切換工具。這種“需求-解決方案”的直達模式,體現了文心大模型對用戶意圖的深度理解與資源調度能力。
同日發布的開放式實時互動數字人智能體,成為本次升級的另一大亮點。該技術基于文心大模型4.5構建,融合NOVA數字人技術的核心優勢,提供超擬真交互體驗:通過10分鐘真人樣本數據即可復刻聲音特征、動作習慣與微表情,口型準確率與表情自然度達到行業領先水平;采用云渲染與端渲染雙引擎適配,兼容多終端場景,實時對話延遲控制在百毫秒以內;目前已接入法律、情感、旅游等領域的專家數字分身,用戶可直接就專業問題展開深度對話,未來還將開放第三方開發者平臺。











