北京人形機器人創(chuàng)新中心日前宣布,其自主研發(fā)的具身智能視覺-語言模型Pelican-VL 1.0正式面向全球開源。這款覆蓋7B與72B雙參數(shù)規(guī)模的模型,憑借其卓越性能被業(yè)界認(rèn)定為"全球最大規(guī)模開源具身多模態(tài)大模型",同時以顯著優(yōu)勢領(lǐng)跑同類技術(shù)。
性能測試數(shù)據(jù)顯示,Pelican-VL 1.0在核心指標(biāo)上超越國際頂尖模型:較GPT-5同類架構(gòu)提升15.79%,較Google Gemini系列提高19.25%,更全面領(lǐng)先通義千問、書生萬象等國內(nèi)先進(jìn)模型。這種突破性表現(xiàn)源于其獨特的訓(xùn)練范式——全球首創(chuàng)的DPPO(刻意訓(xùn)練)算法框架,通過模擬人類元認(rèn)知學(xué)習(xí)機制,使模型在極低數(shù)據(jù)消耗下實現(xiàn)高效進(jìn)化。
研發(fā)團(tuán)隊創(chuàng)新性地將強化學(xué)習(xí)與監(jiān)督微調(diào)深度融合,構(gòu)建出"觀察-實踐-糾錯-提升"的閉環(huán)訓(xùn)練體系。該系統(tǒng)如同具備自我反思能力的學(xué)習(xí)者,在每個訓(xùn)練周期中自動識別知識盲區(qū),通過生成針對性失敗案例進(jìn)行精準(zhǔn)優(yōu)化。這種類人學(xué)習(xí)模式使模型僅需20萬條訓(xùn)練數(shù)據(jù)即可達(dá)成最優(yōu)性能,數(shù)據(jù)利用效率較傳統(tǒng)方法提升10至50倍。
支撐這項技術(shù)突破的是強大的計算基礎(chǔ)設(shè)施。研究團(tuán)隊在由千余張A800 GPU組成的超算集群上完成模型訓(xùn)練,單次檢查點消耗超5萬GPU小時。通過對數(shù)十億token級高質(zhì)量元數(shù)據(jù)的深度挖掘,模型在基線性能上實現(xiàn)20.3%的提升,較同級別開源模型平均優(yōu)勢達(dá)10.6%。
在具身智能應(yīng)用層面,Pelican-VL 1.0展現(xiàn)出革命性突破。其整合的多模態(tài)感知系統(tǒng)能精準(zhǔn)解析視覺信息與語言指令,結(jié)合物理世界常識進(jìn)行復(fù)雜時空推理。這種能力使機器人可在商業(yè)服務(wù)、工業(yè)作業(yè)、家庭場景等真實環(huán)境中,自主完成從環(huán)境感知到動作規(guī)劃的全流程任務(wù),為機器人全自主化發(fā)展奠定關(guān)鍵技術(shù)基礎(chǔ)。
該模型的開源將產(chǎn)生深遠(yuǎn)行業(yè)影響。其提供的自適應(yīng)學(xué)習(xí)機制與高效訓(xùn)練方案,不僅降低了具身智能的技術(shù)門檻,更為產(chǎn)業(yè)界提供了可復(fù)用的創(chuàng)新范式。通過開放核心代碼與訓(xùn)練框架,研究團(tuán)隊期待推動中國在具身智能領(lǐng)域形成技術(shù)主導(dǎo)權(quán),加速人工智能與實體經(jīng)濟(jì)的深度融合。











