近期,人工智能領(lǐng)域迎來了一項(xiàng)突破性進(jìn)展:螞蟻技術(shù)研究院攜手中科院自動(dòng)化所及香港中文大學(xué),共同研發(fā)出一款名為ViLaSR-7B的新型AI大模型,該模型在空間推理能力上達(dá)到了前所未有的高度。這一成果標(biāo)志著AI技術(shù)向模擬人類空間思維邁出了關(guān)鍵一步。
ViLaSR-7B模型采用了獨(dú)特的“視覺互動(dòng)推理”訓(xùn)練策略,即在理解圖像信息的同時(shí)進(jìn)行空間推理。這一創(chuàng)新方法使得模型在迷宮導(dǎo)航、靜態(tài)圖像解析及視頻內(nèi)容分析等任務(wù)上的準(zhǔn)確率平均提升了18.4%。尤為在權(quán)威的空間推理基準(zhǔn)測(cè)試VSI-Bench中,ViLaSR-7B取得了45.4%的優(yōu)異成績(jī),超越了當(dāng)前所有已知方法。
為了實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)為ViLaSR-7B設(shè)計(jì)了一個(gè)分階段訓(xùn)練體系。初期,模型通過基礎(chǔ)視覺訓(xùn)練建立必要的圖像識(shí)別能力;隨后,通過引入反思拒絕采樣機(jī)制,模型學(xué)會(huì)了自我修正,提高了推理的準(zhǔn)確性;最終階段,結(jié)合強(qiáng)化學(xué)習(xí)技術(shù),進(jìn)一步優(yōu)化了模型的推理效能。
傳統(tǒng)視覺語(yǔ)言模型在處理圖像信息時(shí),往往依賴于“視覺轉(zhuǎn)文本”的策略,這一方法在處理復(fù)雜空間關(guān)系時(shí)顯得力不從心。相比之下,ViLaSR-7B采用的“視覺互動(dòng)推理”策略,通過模擬人類在解決空間問題時(shí)的思考過程,使模型能夠更加靈活地捕捉圖像中的空間關(guān)系。這種創(chuàng)新性的方法不僅提升了模型的理解深度,還顯著增強(qiáng)了其推理效果。
ViLaSR-7B的成功不僅彰顯了AI技術(shù)在視覺推理領(lǐng)域的巨大潛力,更為未來智能應(yīng)用的發(fā)展提供了全新的視角和可能。這一突破性成果無(wú)疑將為人工智能領(lǐng)域注入新的活力,推動(dòng)相關(guān)技術(shù)的持續(xù)進(jìn)步與創(chuàng)新。