近日,北京迎來(lái)了一場(chǎng)聚焦人工智能前沿成果的盛會(huì)——“2025百度十大科技前沿發(fā)明”發(fā)布會(huì)。此次發(fā)布的十項(xiàng)發(fā)明覆蓋大模型、深度學(xué)習(xí)框架、AI算力、智能體、AI搜索、數(shù)字人、無(wú)人駕駛等核心領(lǐng)域,不僅展現(xiàn)了百度在AI底層技術(shù)的突破性進(jìn)展,更勾勒出AI應(yīng)用從技術(shù)積累向場(chǎng)景落地的關(guān)鍵路徑,為行業(yè)構(gòu)建起覆蓋“算力-框架-模型-場(chǎng)景”的全棧技術(shù)圖譜。
在基礎(chǔ)模型層面,新一代文心大模型的核心技術(shù)“自回歸統(tǒng)一建模的原生多模態(tài)大模型”成為焦點(diǎn)。該技術(shù)首次實(shí)現(xiàn)語(yǔ)言、圖像、視頻、音頻的統(tǒng)一建模框架,支持任意模態(tài)的理解與生成,并構(gòu)建了面向大模型的獎(jiǎng)勵(lì)系統(tǒng)。通過(guò)多環(huán)境多任務(wù)場(chǎng)景的強(qiáng)化學(xué)習(xí),新一代模型在各模態(tài)任務(wù)上較上一代顯著提升,并發(fā)能力增強(qiáng)且響應(yīng)時(shí)間縮短,為復(fù)雜場(chǎng)景應(yīng)用提供了技術(shù)支撐。例如,在醫(yī)療影像分析中,模型可同步處理CT影像與患者語(yǔ)音描述,生成結(jié)構(gòu)化診斷報(bào)告;在智能教育場(chǎng)景中,能根據(jù)學(xué)生語(yǔ)音提問(wèn)自動(dòng)生成圖文并茂的解答內(nèi)容。
針對(duì)大模型訓(xùn)練的穩(wěn)定性難題,“大模型訓(xùn)練全流程高效容錯(cuò)技術(shù)”提出了創(chuàng)新解決方案。通過(guò)構(gòu)建軟硬件故障自動(dòng)召回定位恢復(fù)體系,該技術(shù)攻克了集群訓(xùn)練中故障定位與召回恢復(fù)兩大核心挑戰(zhàn)。其零損失訓(xùn)練快照機(jī)制可在故障發(fā)生時(shí)瞬間保存訓(xùn)練狀態(tài),結(jié)合全場(chǎng)景故障定位方法,使萬(wàn)卡集群任務(wù)的訓(xùn)練有效率超過(guò)98%,資源利用效率顯著提升。目前,該技術(shù)已應(yīng)用于文心大模型系列訓(xùn)練,支撐起每日數(shù)萬(wàn)次的高強(qiáng)度計(jì)算需求。
在數(shù)字人領(lǐng)域,“劇本驅(qū)動(dòng)的高說(shuō)服力數(shù)字人技術(shù)”推動(dòng)了行業(yè)進(jìn)入普惠化階段。該技術(shù)整合可控視頻生成、超擬真唇形驅(qū)動(dòng)、劇本智能創(chuàng)作與AI大腦自主決策四大能力,突破了大表情/大動(dòng)作生成、音容話一致、人-物-場(chǎng)交互等業(yè)界難題。以羅永浩數(shù)字人直播間為例,雙數(shù)字人互動(dòng)模式實(shí)現(xiàn)單場(chǎng)GMV超5500萬(wàn)元,后驗(yàn)數(shù)據(jù)全面超越真人主播。這項(xiàng)技術(shù)不僅降低了數(shù)字人制作成本,更通過(guò)AI大腦賦予其自主決策能力,可靈活調(diào)度助播、場(chǎng)控等角色,形成“一人即團(tuán)隊(duì)”的營(yíng)銷(xiāo)生態(tài)。
搜索場(chǎng)景的革新體現(xiàn)在“基于多智能體協(xié)同的AI搜索引擎”上。該技術(shù)以Master-Planner–Executor-Generator四層智能體體系為底座,模擬人類(lèi)信息處理的“感知-規(guī)劃-執(zhí)行-生成”全流程。在百度文心助手中,這一技術(shù)支撐起復(fù)雜問(wèn)題拆解、富媒體呈現(xiàn)、個(gè)性化滿足等核心能力,使日活躍用戶(hù)與用戶(hù)留存率顯著提升。例如,當(dāng)用戶(hù)搜索“北京周末親子游”時(shí),搜索引擎可自動(dòng)規(guī)劃包含景點(diǎn)、交通、餐飲的完整方案,并生成圖文并茂的行程手冊(cè)。
視頻生成領(lǐng)域,“蒸汽機(jī)(文心專(zhuān)精)音視頻一體化生成大模型技術(shù)”開(kāi)啟了雙向共創(chuàng)新階段。作為全球首個(gè)中文音視頻一體化生成模型,它支持分鐘級(jí)多人有聲音視頻生成與交互,通過(guò)LatentMultiModalPlanner技術(shù)重構(gòu)生成邏輯,實(shí)現(xiàn)視頻全流程有聲一體化。在影視創(chuàng)作場(chǎng)景中,該技術(shù)可將制作成本降低70%,同時(shí)提供大師級(jí)運(yùn)鏡控制。對(duì)外賦能方面,其長(zhǎng)視頻實(shí)時(shí)交互生成能力已應(yīng)用于商業(yè)內(nèi)容生產(chǎn)、搜索妙筆等業(yè)務(wù),推動(dòng)百度AI視頻生態(tài)繁榮。
在自動(dòng)駕駛領(lǐng)域,“兼容端到端軌跡方案的橫縱聯(lián)合控制技術(shù)”實(shí)現(xiàn)了技術(shù)躍遷。基于車(chē)輛橫縱耦合動(dòng)力學(xué),該技術(shù)設(shè)計(jì)的線性時(shí)變模型預(yù)測(cè)控制器,使橫向晃動(dòng)幅度優(yōu)化70%,彎道橫向抽動(dòng)問(wèn)題完全消除。目前,搭載該技術(shù)的蘿卜快跑自動(dòng)駕駛車(chē)輛已駛?cè)胂愀邸⒌习莸?6座城市,累計(jì)提供超1400萬(wàn)次服務(wù),安全行駛里程突破2億公里,其擬人化控制水平接近經(jīng)驗(yàn)豐富的駕駛員。
其他技術(shù)同樣亮點(diǎn)紛呈:“從芯片到集群的跨層級(jí)訓(xùn)推一體AI基建系統(tǒng)性技術(shù)”構(gòu)建起完備的AI基礎(chǔ)設(shè)施體系,使XPULink帶寬提升8倍,網(wǎng)絡(luò)時(shí)延壓至4微秒;“信息流端到端內(nèi)容理解與序列生成技術(shù)”突破推薦系統(tǒng)局限,實(shí)現(xiàn)多模態(tài)內(nèi)容理解與個(gè)性化生成;“飛槳科學(xué)計(jì)算高效求解技術(shù)”將微分方程求解速度提升2-4個(gè)數(shù)量級(jí),加速科學(xué)計(jì)算領(lǐng)域創(chuàng)新;“基于智能體的自進(jìn)化應(yīng)用生成技術(shù)”則通過(guò)三重自進(jìn)化學(xué)習(xí)架構(gòu),使應(yīng)用開(kāi)發(fā)成本從傳統(tǒng)模式的大約4人周、2萬(wàn)元縮減到小于1小時(shí)、低于50元,純無(wú)代碼生成應(yīng)用已達(dá)38萬(wàn)。







