英偉達聯(lián)合多倫多大學、向量研究所及德克薩斯大學奧斯汀分校的研究團隊,共同推出了一項名為ViPE(視頻姿勢引擎)的前沿技術,為3D幾何感知領域帶來了突破性進展。該技術專注于從自然場景視頻中高效提取精確的3D信息,解決了傳統(tǒng)方法在復雜動態(tài)環(huán)境中的局限性。
ViPE的核心優(yōu)勢在于其強大的場景適應能力。無論是動態(tài)自拍視頻、電影級鏡頭、行車記錄儀畫面,還是針孔、廣角或360°全景相機拍攝的內容,該技術均能穩(wěn)定處理。其應用場景覆蓋自動駕駛、虛擬現(xiàn)實(VR)、增強現(xiàn)實(AR)等依賴空間感知的領域,為這些技術提供了高精度的相機參數(shù)、運動軌跡和深度圖數(shù)據(jù)。
技術實現(xiàn)上,研究團隊采用多重約束混合方法確保精度。通過在關鍵幀執(zhí)行密集束調整,同步優(yōu)化相機參數(shù)、姿態(tài)和深度圖;結合DROID-SLAM網(wǎng)絡的密集光流約束與cuvslam庫的稀疏點約束,提升魯棒性至亞像素級別;再利用單目度量深度網(wǎng)絡解決尺度模糊問題,生成時間一致的高分辨率深度信息。這種多層次優(yōu)化使ViPE在姿態(tài)估算和內在參數(shù)精度上顯著超越MegaSAM、VGGT和MASt3R-SLAM等現(xiàn)有方案。
實測數(shù)據(jù)顯示,ViPE在單個GPU上可實現(xiàn)每秒3至5幀的穩(wěn)定運行,并生成尺度一致的軌跡。為支持學術界進一步探索,團隊同步公開了包含約9600萬幀標注數(shù)據(jù)的大規(guī)模數(shù)據(jù)集,覆蓋多樣化場景和相機類型。該數(shù)據(jù)集不僅為訓練更強大的空間AI模型提供了基礎,也推動了3D幾何感知技術的標準化發(fā)展。