英偉達(dá)近期揭曉了其革命性的Cosmos-Reason1系列模型,這一創(chuàng)新之舉旨在強(qiáng)化人工智能在物理常識(shí)理解和具身推理方面的能力。盡管人工智能在語(yǔ)言處理、數(shù)學(xué)運(yùn)算以及代碼生成等領(lǐng)域已展現(xiàn)出非凡的進(jìn)步,但如何將這些成就無(wú)縫對(duì)接至物理環(huán)境,依然是當(dāng)前科技界面臨的一大難題。
與傳統(tǒng)人工智能不同,物理AI(Physical AI)側(cè)重于通過(guò)視頻等感官輸入,結(jié)合現(xiàn)實(shí)世界的物理法則來(lái)生成相應(yīng)的反應(yīng)。這一領(lǐng)域的應(yīng)用廣泛,涵蓋了機(jī)器人技術(shù)、自動(dòng)駕駛汽車等多個(gè)重要方面,要求AI系統(tǒng)具備強(qiáng)大的常識(shí)推理能力,以及對(duì)空間、時(shí)間和物理規(guī)律的深刻洞察。
然而,當(dāng)前的人工智能模型在物理世界的實(shí)際應(yīng)用中仍存在明顯短板,尤其是在直觀理解重力、空間關(guān)系等物理現(xiàn)象方面表現(xiàn)欠佳,這嚴(yán)重限制了它們?cè)趫?zhí)行具體身體任務(wù)時(shí)的效能。直接在物理環(huán)境中進(jìn)行AI訓(xùn)練不僅成本高昂,還伴隨著巨大的風(fēng)險(xiǎn),這無(wú)疑成為了物理AI發(fā)展的絆腳石。
為了突破這一瓶頸,英偉達(dá)推出了Cosmos-Reason1模型,這一模型包含了Cosmos-Reason1-7B和Cosmos-Reason1-56B兩個(gè)版本,通過(guò)物理AI監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)兩大階段進(jìn)行訓(xùn)練。研究團(tuán)隊(duì)引入了獨(dú)特的雙本體系統(tǒng),其中一個(gè)分層本體將物理常識(shí)細(xì)分為空間、時(shí)間和基礎(chǔ)物理三個(gè)部分,另一個(gè)本體則專注于映射人類、機(jī)械臂和人形機(jī)器人等具身代理的推理能力。
Cosmos-Reason1模型采用了僅解碼器的大型語(yǔ)言模型架構(gòu),并結(jié)合視覺(jué)編碼器來(lái)處理視頻數(shù)據(jù),從而實(shí)現(xiàn)了文本和視覺(jué)信息的同步推理。為了驗(yàn)證模型的性能,研究團(tuán)隊(duì)精心構(gòu)建了針對(duì)物理常識(shí)和具身推理的基準(zhǔn)測(cè)試集,包括604個(gè)問(wèn)題和426個(gè)視頻的物理常識(shí)基準(zhǔn)測(cè)試,以及包含610個(gè)問(wèn)題和600個(gè)視頻的六個(gè)具身推理基準(zhǔn)測(cè)試。
經(jīng)過(guò)嚴(yán)格訓(xùn)練,Cosmos-Reason1模型在物理常識(shí)和具身推理基準(zhǔn)測(cè)試中展現(xiàn)出了卓越的表現(xiàn),特別是在強(qiáng)化學(xué)習(xí)訓(xùn)練階段后,模型在預(yù)測(cè)后續(xù)行動(dòng)、驗(yàn)證任務(wù)完成狀態(tài)以及評(píng)估物理可行性等方面取得了顯著成果。這一系列的突破為英偉達(dá)在物理推理任務(wù)中提供了新的解決方案,也為機(jī)器人和自動(dòng)駕駛等領(lǐng)域的發(fā)展注入了新的活力。