日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

一場沒有“羅永浩”的直播,為百度AI正名

   時間:2025-06-25 11:51:03 來源:硅星人編輯:快訊團隊 IP:北京 發表評論無障礙通道

作者 | Yoky

郵箱 | yokyliu@pingwest.com

5500萬GMV,這可能是迄今為止,一個AI數字人單次直播帶來的最高銷量。

過去幾年內,數字人直播代替真人主播的傳言總是一波又一波,空無一人的直播基地無數手機屏幕“自動地”產生著GMV,這個畫面曾經擊中了無數網友的心。但現實是,這些數字人們機械重復的動作、無法隨機應變的話術反而讓真人主播們都松了一口氣。

但這次,真正的轉折點來了。6月15日,羅永浩數字人在百度直播的第一次亮相,連播近7小時,達成了1300萬人次觀看、GMV突破5500萬的成績,不僅破了AI數字人圈里的記錄,甚至超過了真人的記錄——互動量超真人直播間3倍。

一直以來,數字人技術成熟度的一個核心評判標準,都是與真人主是否存在差距,以及有多大的差距。而在此次的直播間,彈幕里“這是真的還是假的”的評論不斷刷屏,已經證實了這次AI數字人的驚人效果。

更重要的是,這不是一次炫技式的表演,而是百度AI在真實商業環境的實戰演練。當整個行業還在為文生視頻的“確定性” ,百度已經用AI為商家和創作者們端起了第一個能真正“養活”自己的“飯碗”。

如何用AI煉成“真”羅永浩?

這背后并非單一模型的技術突破,而是一套多模協同的數字人技術。簡單來說,這套技術將語言大模型置于“總導演”的位置,統籌指揮著語音、視覺等各個“演員”,完成了一場幾乎以假亂真的演出。

與傳統數字人技術形成鮮明對比的是,過去的方案往往采用語言、語音、視覺三條獨立流水線,各自生成內容后再強行拼接,這必然導致音畫不同步、表情僵硬、言語乏味等問題。

百度的技術方案重點包含劇本驅動的數字人多模協同、融合多模規劃與深度思考的劇本生成、動態決策的實時交互、文本自控的語音合成、高一致性超擬真數字人長視頻生成五項創新技術,實現了數字人“神、形、音、容、話”的高度統一。最終呈現出一個具備高表現力,內容吸引人,人-物-場可自由交互的超擬真數字人。

具體而言,“劇本”模型扮演了總指揮的角色。它在生成時輸入的并非只有文本,而是包含商品信息、歷史視頻、主播人設要求等多模態信息。劇本會生成對視覺和語音的具體要求,即所謂的“標簽”,為后續的視覺和語音模型提供方向性指引,從而確保內容、語氣和表情在語義上的高度一致性。

百度集團副總裁吳甜告訴,多模態協同的難點在于多個模型對于要求的理解是一致的。這意味著從劇本(導演)到語音、視覺(演員),整個團隊對表演基調有統一認知。同時,各個演員(各模態模型)又保有自己的“發揮空間”,比如語音模型會根據自身對文本的細粒度理解調整語調頓挫,而不是完全被劇本的詞語鎖死。

以羅永浩數字人劇本為例,基于文心大模型4.5 Turbo生成的劇本,充分展現了主播的個人特色,具備典型的羅氏幽默風格,并能夠實現雙人主播的內容協同,動態實現豐富的實時互動。

在單體完成“真老羅”的打造后,體現直播生命力的實時互動成為另一個更關鍵的挑戰。面對評論區海量、無序的用戶提問,以及與助播的配合上,數字人如何做到實時、自然的回應?這背后是一套動態決策系統。

在直播過程中,模型并非對每個問題都立即回復。系統會對評論區進行智能分析,結合主播當前的講解節奏,選擇合適的時機、合適的問題,以及合適的回答策略進行觸發。這種“謀定而后動”的機制,遠比簡單的“一問一答”更接近真人主播的互動邏輯。

為了徹底解決實時生成的延遲問題,百度采用了“流式生成”的工程化設計。語言、語音、視覺三個模態并非串行等待,而是像流水線一樣并行工作,極大縮短了用戶感知的時延。同時,系統采用“離在線統一”的方法,部分可預見的交互內容可以提前處理,而需要即時反應的部分則在線動態生成。通過系統性優化,成功解決了生成視頻這類高耗時任務的卡點問題,最終實現了絲滑的交互體驗。

更進一步地,在雙人直播中,大量的打斷、復說、搶話等場景對語音合成提出了極高要求。吳甜提到,通過引入“對話上下文解碼器”,模型能夠結合歷史對話信息進行推理,從而實現老搭檔之間那種默契、自然的對話流。

在數字人形象生成以及驅動方面,百度通過結合多模態視頻理解、跨模態信號生成、視頻生成等技術,克服了高可控交互,高精度、長時間一致性保持等難點,實現了高一致性超擬真羅永浩數字人長視頻生成。

而且在此過程中,能保證語音、口型、表情與動作始終保持高度同步,從而實現真正的「音、容、話」一致。

從煉成“羅氏幽默”到跑通商業閉環,百度數字人不僅為行業樹立了新的技術標桿,更重要的是,它為AI技術如何從“熱搜”走向真實的生產線,提供了一份極具說服力的答卷。

不要“超級應用”,要“超級有用”

對于在直播電商紅海中拼殺的千萬商家而言,現實的挑戰正變得愈發尖銳:頭部主播簽約費動輒千萬,自建團隊每月固定開銷數萬甚至數十萬,而流量獲取成本卻在持續攀升。在這種環境下,如何在保證效果的前提下控制成本,成為每個商家必須面對的生存課題。

數字人技術,一度被視為破局的希望。然而,早期的數字人更像是一個“不知疲倦的播報員”,形象呆板、互動生硬,無法傳遞信任,更遑論激發購買欲。它們解決了“有沒有”的問題,卻沒能解決“好不好用”的核心痛點。市場真正需要的,不是一個僅僅能節省成本的“工具”,而是一個能真正替代真人、創造價值的“戰力”。

那么,一個“真正可用”的數字人到底意味著什么?它不僅要形象逼真,更要具備三項核心能力:能理解商品、能與人互動、能建立信任。羅永浩數字人直播的案例,恰恰為這三點提供了行業標尺。它不再是簡單的產品復讀機,而是能用“羅氏幽默”與觀眾調侃,能根據實時提問調整講解策略,最終實現了與真人主播幾乎無異的帶貨效果。

從商業角度審視,這背后反映的是兩筆關鍵賬目的變化:

第一筆是成本賬。數據顯示,數字人直播能平均降低約80%的成本。這意味著商家可以將過去投入在昂貴主播身上的預算,轉移到供應鏈優化和市場推廣上,徹底重構成本結構。千元級別的投入,就能獲得一個7x24小時在線的主播,這在過去是不可想象的。

第二筆是效率賬。在保健品、教育、旅游等需要深度講解的品類上,知識儲備無限、表達精準無誤的數字人,其轉化效率已開始超越真人。對于擁有好產品但缺乏優秀主播的商家,或是不希望核心名師被直播消耗的教育機構而言,數字人代表著一條全新的增長路徑。

“好用”的數字人并非憑空而來,它的出現反映了不同公司在技術路徑上的戰略分化。當我們從市場應用效果反推其背后的技術邏輯時,百度的選擇便清晰地浮現出來。

當前行業的主流敘事集中在卷模型,各家比拼參數規模和基準測試成績。而百度的路徑更偏向卷應用,這一選擇的底氣源于其在多模態技術上的長期積累。

這種“應用為王”的戰略,最終指向的是生產力的規模化落地。復刻羅永浩更多是技術天花板的展示,其真正的商業價值在于將這種能力以低門檻、可復制的方式賦能給廣大中小商家。百度電商總經理平曉黎在接受采訪時表示,相比追逐頭部IP,更傾向于“讓更多的中小商家、腰部商家,還有創作達人能夠做起來”。

更關鍵的是,這條路徑驗證了AI產業期待已久的商業閉環。從行業發展的角度看,羅永浩數字人直播的意義遠超一場帶貨本身。它為AI產業提供了一個清晰的價值驗證:技術的最終價值必須通過為實體經濟創造可度量的商業成功來檢驗。這種“超級有用”的路徑,或許比追逐“超級應用”的概念更具現實意義。當然,這種模式能否被廣泛復制,以及在更多垂直領域的適用性,仍需要市場的進一步檢驗。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 聂拉木县| 循化| 沧州市| 高青县| 东光县| 和林格尔县| 乌兰浩特市| 临高县| 嘉黎县| 平安县| 济宁市| 陆丰市| 山东| 临湘市| 比如县| 垣曲县| 徐汇区| 北海市| 阳朔县| 囊谦县| 雷山县| 乌兰察布市| 翁源县| 都江堰市| 三都| 阳西县| 清徐县| 威宁| 武宣县| 分宜县| 关岭| 阳山县| 民勤县| 涪陵区| 集安市| 甘孜县| 新和县| 潼南县| 从化市| 四子王旗| 常州市|