近日,由南洋理工大學(xué)、加州理工學(xué)院、西湖大學(xué)、加州大學(xué)、牛津大學(xué)、南京大學(xué)、香港大學(xué)、劍橋大學(xué)、哈佛大學(xué)及麻省理工學(xué)院等頂尖高校與科研機(jī)構(gòu)組成的聯(lián)合團(tuán)隊,發(fā)布了一項(xiàng)關(guān)于三維視覺重建技術(shù)的前沿研究。該研究系統(tǒng)梳理了前饋模型在3D重建與視圖合成領(lǐng)域的應(yīng)用進(jìn)展,重點(diǎn)分析了點(diǎn)云、3D高斯散斑(3DGS)、神經(jīng)輻射場(NeRF)等底層表示架構(gòu)的技術(shù)特性。
傳統(tǒng)3D重建技術(shù)如運(yùn)動恢復(fù)結(jié)構(gòu)(SfM)長期依賴場景專屬優(yōu)化流程,需通過特征點(diǎn)匹配、三角測量等步驟耗時數(shù)小時甚至數(shù)天完成建模。2020年出現(xiàn)的NeRF技術(shù)雖能生成高質(zhì)量新視圖,但其神經(jīng)網(wǎng)絡(luò)模型仍需針對每個場景單獨(dú)訓(xùn)練,無法直接遷移至其他場景。2023年誕生的3DGS技術(shù)通過微小高斯橢球體顯式構(gòu)建場景,顯著提升了渲染速度,但泛化能力不足的問題仍未解決。
研究指出,前饋模型通過單次前向傳播實(shí)現(xiàn)3D重建的技術(shù)突破,正在重構(gòu)計算機(jī)視覺、虛擬現(xiàn)實(shí)(VR)及數(shù)字孿生等領(lǐng)域的技術(shù)范式。這類模型通過海量數(shù)據(jù)訓(xùn)練獲得通用能力,可直接從少量2D圖像推斷3D場景結(jié)構(gòu),其處理速度較傳統(tǒng)方法提升數(shù)個數(shù)量級,為機(jī)器人實(shí)時感知、交互式3D內(nèi)容創(chuàng)作等應(yīng)用開辟了新路徑。
在技術(shù)實(shí)現(xiàn)層面,研究詳細(xì)解析了前饋模型的演進(jìn)路徑。針對NeRF模型的泛化改進(jìn)中,PixelNeRF開創(chuàng)性提出條件NeRF框架,通過動態(tài)調(diào)整輸入圖像特征實(shí)現(xiàn)跨場景預(yù)測;CodeNeRF進(jìn)一步引入全局潛在碼編碼場景特征;MVSNeRF則借鑒傳統(tǒng)多視圖立體匹配技術(shù),構(gòu)建3D成本體積提升幾何預(yù)測精度。大型重建模型LRM采用三平面表示架構(gòu),結(jié)合Transformer實(shí)現(xiàn)端到端3D特征解碼,展示了大規(guī)模模型在通用重建中的潛力。
點(diǎn)云表示領(lǐng)域,DUSt3R模型通過回歸像素對齊的點(diǎn)地圖,統(tǒng)一了單目與雙目重建流程,甚至可在無相機(jī)參數(shù)條件下工作。后續(xù)改進(jìn)如MASt3R引入局部特征匹配提升精度,F(xiàn)ast3R設(shè)計全局融合Transformer處理多視圖輸入,Spann3R與MUSt3R則通過內(nèi)存機(jī)制實(shí)現(xiàn)視頻序列的漸進(jìn)式3D表示更新。
針對3DGS技術(shù)的即時生成需求,研究區(qū)分了預(yù)測高斯圖與預(yù)測高斯體積兩條技術(shù)路徑。前者如Splatter Image通過U-Net從單圖預(yù)測像素對齊的3D高斯,GRM與Flash3D分別利用大規(guī)模數(shù)據(jù)先驗(yàn)與深度預(yù)測器提升重建質(zhì)量;后者如LaRa構(gòu)建3D特征體積后重建高斯分布,Triplane-Gaussian則探索三平面表示降低計算成本。多視圖輔助方法MVSplat通過成本體積構(gòu)建顯著提升了高斯定位精度。
在經(jīng)典3D表示領(lǐng)域,研究關(guān)注了網(wǎng)格、占用及符號距離函數(shù)(SDF)等方向的技術(shù)突破。Pixel2Mesh通過變形初始網(wǎng)格匹配輸入圖像輪廓,擴(kuò)散模型驅(qū)動的One-2-3-45與Wonder3D分別實(shí)現(xiàn)多視圖一致性網(wǎng)格生成及法線圖輔助重建。Any-Shot GIN與SparseNeuS則實(shí)現(xiàn)了從圖像到占用表示及SDF的前饋預(yù)測。
研究特別指出,跳過顯式3D表示的直接視圖合成方法正成為新熱點(diǎn)。場景表示變換器(SRT)通過Transformer編碼器-解碼器結(jié)構(gòu)直接輸出目標(biāo)視角像素顏色,Zero-1-to-3通過修改文生圖擴(kuò)散模型實(shí)現(xiàn)單視圖新視圖合成,ReconX等視頻擴(kuò)散模型則利用隱式3D結(jié)構(gòu)知識生成多視圖一致序列。
技術(shù)評估顯示,前饋模型在無姿態(tài)重建、動態(tài)場景處理等任務(wù)中展現(xiàn)出獨(dú)特優(yōu)勢。基于Pointmap的模型可同步恢復(fù)相機(jī)參數(shù),降低3D內(nèi)容創(chuàng)作門檻;快速推理能力使其適用于運(yùn)動人物捕捉、自動駕駛場景理解等動態(tài)場景。但研究同時指出,當(dāng)前技術(shù)仍面臨多模態(tài)數(shù)據(jù)融合不足、極端條件泛化能力有限、高分辨率輸入計算成本高企等挑戰(zhàn)。











