7 月 17 日消息,英特爾近日在 GitHub 開源了一款基于 AI 的視頻質(zhì)量評(píng)估工具 —— 計(jì)算機(jī)圖形視覺質(zhì)量指標(biāo)(Computer Graphics Visual Quality Metric,簡稱 CGVQM),旨在為現(xiàn)代游戲和實(shí)時(shí)渲染圖形的畫質(zhì)評(píng)價(jià)提供客觀衡量標(biāo)準(zhǔn)。該工具已以 PyTorch 應(yīng)用形式在 GitHub 上發(fā)布,同時(shí)配套研究論文《CGVQM+D:計(jì)算機(jī)圖形視頻質(zhì)量指標(biāo)及數(shù)據(jù)集》也對(duì)外公布。
當(dāng)前游戲畫面很少以原生幀渲染,普遍依賴 DLSS 等超分技術(shù)、幀生成、可變速率著色等手段提升性能與畫質(zhì),但也由此引發(fā)鬼影、閃爍、鋸齒、遮擋等各種視覺問題。此前業(yè)內(nèi)多通過主觀評(píng)價(jià)描述這些缺陷,缺乏標(biāo)準(zhǔn)化的客觀量化工具。
據(jù)了解,盡管視頻壓縮評(píng)估常用的峰值信噪比(PSNR)等指標(biāo)可用來衡量畫質(zhì),但這些方法并不適用于實(shí)時(shí)圖形渲染。PSNR 主要評(píng)估壓縮偽影,難以全面反映實(shí)時(shí)圖形中的復(fù)雜失真與畫質(zhì)劣化。
為此,英特爾研究團(tuán)隊(duì)采取了雙管齊下的策略:一方面,構(gòu)建了一個(gè)全新視頻數(shù)據(jù)集 —— 計(jì)算機(jī)圖形視覺質(zhì)量數(shù)據(jù)集(CGVQD),涵蓋路徑追蹤、神經(jīng)去噪、神經(jīng)超采樣(如 FSR、XeSS、DLSS)、高斯?jié)姙R、幀插值和可變速率著色等技術(shù)所引發(fā)的多樣化畫質(zhì)退化;另一方面,基于該數(shù)據(jù)集,訓(xùn)練了 CGVQM AI 模型,專門用于識(shí)別并量化這些失真。
研究團(tuán)隊(duì)邀請(qǐng)人類觀察者對(duì)數(shù)據(jù)集中的視頻失真程度進(jìn)行評(píng)級(jí),形成“幾乎不可察覺”到“非常惱人”的感知基線,再以此為依據(jù)訓(xùn)練 AI 模型。模型采用 3D 卷積神經(jīng)網(wǎng)絡(luò)(3D-CNN),具體基于 3D-ResNet-18 架構(gòu)。3D 網(wǎng)絡(luò)相較于 2D 模型,可同時(shí)捕捉空間和時(shí)間維度的圖像特征,更好識(shí)別視頻中動(dòng)態(tài)變化帶來的畫質(zhì)問題。
實(shí)驗(yàn)顯示,CGVQM 的評(píng)估效果幾乎全面超越現(xiàn)有同類工具。其中更復(fù)雜的 CGVQM-5 模型在 CGVQD 數(shù)據(jù)集上,僅次于人類基線評(píng)分,簡單版 CGVQM-2 也穩(wěn)居第三。更重要的是,CGVQM 在未見過的視頻中同樣展現(xiàn)了良好的泛化能力,使其具備廣泛適用價(jià)值。
研究人員同時(shí)指出,未來可通過引入 Transformer 網(wǎng)絡(luò)架構(gòu)進(jìn)一步提升模型性能,盡管這會(huì)帶來更高的計(jì)算資源消耗;也可引入光流等信息以優(yōu)化失真識(shí)別。