只需兩張普通照片,就能在眨眼間生成完整的3D人體模型——這項(xiàng)曾出現(xiàn)在科幻電影中的技術(shù),如今已成為現(xiàn)實(shí)。華中科技大學(xué)聯(lián)合華為、上海交通大學(xué)的研究團(tuán)隊(duì),開發(fā)出一套名為"Snap-Snap"的創(chuàng)新系統(tǒng),通過人體正面和背面兩張照片,僅需190毫秒即可完成高精度3D重建,為3D數(shù)字內(nèi)容創(chuàng)作開辟了全新路徑。
傳統(tǒng)3D人體重建技術(shù)長期面臨兩大困境:要么依賴專業(yè)多攝像頭陣列采集多角度數(shù)據(jù),設(shè)備成本高昂;要么基于人體先驗(yàn)?zāi)P瓦M(jìn)行預(yù)測,但面對(duì)寬松服裝等非常規(guī)形態(tài)時(shí)往往失真。研究團(tuán)隊(duì)創(chuàng)造性地將問題轉(zhuǎn)化為"智能拼圖":通過兩張照片中的幾何信息,結(jié)合深度學(xué)習(xí)模型推斷出側(cè)面細(xì)節(jié),最終拼合出完整3D模型。這種雙視角方案既保持了操作簡便性,又突破了傳統(tǒng)方法的局限。
系統(tǒng)核心在于重新設(shè)計(jì)的幾何重建模型。該模型在DUSt3R基礎(chǔ)架構(gòu)上針對(duì)人體特征優(yōu)化,設(shè)置四個(gè)獨(dú)立預(yù)測頭分別處理正背面及左右側(cè)面。側(cè)面預(yù)測頭通過融合正背面信息的平均值,學(xué)習(xí)從有限數(shù)據(jù)中推斷缺失結(jié)構(gòu)。為解決比例對(duì)齊問題,系統(tǒng)引入可學(xué)習(xí)縮放參數(shù),確保生成的3D模型符合真實(shí)人體比例。實(shí)驗(yàn)表明,這種設(shè)計(jì)使側(cè)面重建完整性顯著提升,避免了傳統(tǒng)方法常見的肢體缺失問題。
顏色信息補(bǔ)全通過創(chuàng)新算法實(shí)現(xiàn)。系統(tǒng)采用最近鄰搜索技術(shù),將正背面圖像的色彩數(shù)據(jù)"映射"到側(cè)面點(diǎn)云。具體而言,對(duì)每個(gè)側(cè)面點(diǎn),系統(tǒng)在已知彩色點(diǎn)云中尋找空間最近點(diǎn),繼承其顏色屬性。這種類比"照片上色"的技術(shù),使生成的3D模型具備完整紋理,解決了雙視角輸入導(dǎo)致的色彩缺失難題。
為提升渲染質(zhì)量,研究團(tuán)隊(duì)將點(diǎn)云轉(zhuǎn)換為3D高斯表示。每個(gè)高斯粒子不僅包含空間坐標(biāo),還攜帶顏色、透明度、縮放等屬性。通過UNet網(wǎng)絡(luò)回歸這些參數(shù),系統(tǒng)能生成細(xì)節(jié)更豐富的3D模型。訓(xùn)練過程采用兩階段策略:第一階段專注幾何精度,使用3D點(diǎn)云和2D掩碼監(jiān)督;第二階段優(yōu)化視覺效果,通過渲染圖像與真實(shí)圖像的差異調(diào)整參數(shù)。這種分步訓(xùn)練使模型在幾何準(zhǔn)確性和視覺質(zhì)量上均達(dá)到領(lǐng)先水平。
在THuman2.0數(shù)據(jù)集測試中,Snap-Snap在PSNR、SSIM、LPIPS等核心指標(biāo)上全面超越現(xiàn)有方法。特別值得注意的是,相比使用5個(gè)視角的GPS-Gaussian方法,Snap-Snap僅用2個(gè)視角就實(shí)現(xiàn)了更高重建質(zhì)量。與依賴人體模型的GHG方法相比,該系統(tǒng)不僅質(zhì)量更優(yōu),推理速度更提升數(shù)十倍。跨數(shù)據(jù)集測試顯示,系統(tǒng)在2K2K和4D-Dress數(shù)據(jù)集上同樣表現(xiàn)優(yōu)異,證明其具備強(qiáng)泛化能力。
實(shí)際應(yīng)用驗(yàn)證環(huán)節(jié),研究團(tuán)隊(duì)使用兩部普通手機(jī)搭建采集裝置,成功完成3D重建。這表明即使低成本移動(dòng)設(shè)備,也能提供足夠數(shù)據(jù)支持系統(tǒng)運(yùn)行。計(jì)算效率方面,整個(gè)過程在NVIDIA RTX 4090顯卡上僅需190毫秒,其中點(diǎn)云預(yù)測91毫秒,高斯回歸87毫秒,側(cè)面增強(qiáng)12毫秒。這種毫秒級(jí)響應(yīng)速度,為實(shí)時(shí)交互應(yīng)用奠定了技術(shù)基礎(chǔ)。
消融實(shí)驗(yàn)證實(shí)了系統(tǒng)設(shè)計(jì)的科學(xué)性。移除側(cè)面預(yù)測頭會(huì)導(dǎo)致模型出現(xiàn)明顯缺失;不使用側(cè)面增強(qiáng)算法會(huì)使紋理銜接生硬;去掉幾何模型預(yù)訓(xùn)練權(quán)重則顯著降低重建精度。與單視角方法對(duì)比顯示,雙視角輸入在保持操作簡便的同時(shí),大幅提升了模型完整性和一致性,避免了生成模型常見的不可控變形問題。
數(shù)據(jù)擴(kuò)展性研究帶來積極信號(hào)。當(dāng)訓(xùn)練數(shù)據(jù)從426個(gè)掃描增加到2992個(gè)時(shí),系統(tǒng)性能持續(xù)提升,表明該方法可通過擴(kuò)大數(shù)據(jù)集進(jìn)一步優(yōu)化。研究團(tuán)隊(duì)特別指出,系統(tǒng)在處理寬松服裝時(shí)表現(xiàn)突出,這得益于其不依賴SMPL-X等人體先驗(yàn)?zāi)P偷脑O(shè)計(jì),有效克服了傳統(tǒng)方法在非常規(guī)形態(tài)重建中的短板。
盡管已取得突破,研究團(tuán)隊(duì)也坦言當(dāng)前系統(tǒng)存在改進(jìn)空間。在腋下、手臂交叉等嚴(yán)重遮擋區(qū)域,點(diǎn)云監(jiān)督信號(hào)不足可能導(dǎo)致局部空洞。未來計(jì)劃引入幾何生成先驗(yàn),通過學(xué)習(xí)更豐富的空間關(guān)系來優(yōu)化這些區(qū)域的重建效果。這些持續(xù)優(yōu)化將推動(dòng)技術(shù)向更高精度、更強(qiáng)魯棒性方向發(fā)展。
這項(xiàng)成果的意義超越技術(shù)本身。在元宇宙、虛擬試衣、遠(yuǎn)程會(huì)議等場景快速發(fā)展的背景下,低成本、高質(zhì)量的3D人體重建技術(shù)將成為數(shù)字內(nèi)容產(chǎn)業(yè)的關(guān)鍵基礎(chǔ)設(shè)施。普通用戶通過簡單拍照即可創(chuàng)建個(gè)人3D數(shù)字分身,大幅降低參與虛擬世界的門檻。從技術(shù)演進(jìn)角度看,Snap-Snap在重建質(zhì)量、計(jì)算效率和操作便利性之間找到了理想平衡點(diǎn),為3D視覺領(lǐng)域提供了新的研究范式。











