上海人工智能實(shí)驗(yàn)室聯(lián)合浙江大學(xué)等科研機(jī)構(gòu),近日發(fā)布了全球首個(gè)針對(duì)大語言模型視頻轉(zhuǎn)交互網(wǎng)頁能力的評(píng)測基準(zhǔn)IWR-Bench。該基準(zhǔn)聚焦多模態(tài)大語言模型(LVLM)在動(dòng)態(tài)網(wǎng)頁重建場景下的技術(shù)突破,填補(bǔ)了AI前端開發(fā)領(lǐng)域動(dòng)態(tài)交互能力評(píng)估的空白,為行業(yè)提供了全新的技術(shù)參照體系。
與傳統(tǒng)圖像轉(zhuǎn)代碼任務(wù)不同,IWR-Bench要求模型通過分析用戶操作全流程視頻,結(jié)合匿名化處理的靜態(tài)資源文件,完成從簡單頁面導(dǎo)航到復(fù)雜游戲邏輯(如2048游戲、機(jī)票預(yù)訂系統(tǒng))的動(dòng)態(tài)交互重建。評(píng)測覆蓋28個(gè)主流模型,結(jié)果顯示最先進(jìn)的GPT-5綜合得分僅36.35分,其中交互功能正確性(IFS)得分24.39%,視覺還原度(VFS)得分64.25%,暴露出模型在事件驅(qū)動(dòng)邏輯實(shí)現(xiàn)上的顯著短板。
技術(shù)評(píng)測體系設(shè)計(jì)突破傳統(tǒng)框架,采用自動(dòng)化代理評(píng)估交互功能正確性,要求模型僅通過視覺匹配關(guān)聯(lián)匿名化資源文件,杜絕語義推理的干擾。這種設(shè)計(jì)更貼近真實(shí)開發(fā)場景,迫使模型必須理解操作視頻中的因果關(guān)系鏈和狀態(tài)變化軌跡,才能生成符合預(yù)期的代碼邏輯。測試數(shù)據(jù)顯示,超過75%的模型生成網(wǎng)頁存在交互缺陷,包括事件響應(yīng)錯(cuò)誤、狀態(tài)管理混亂和業(yè)務(wù)邏輯缺失等問題。
研究團(tuán)隊(duì)發(fā)現(xiàn),具備"思考"機(jī)制的模型版本在特定任務(wù)中表現(xiàn)略有提升,但整體性能仍受限于基礎(chǔ)模型能力。更值得注意的是,專為視頻理解優(yōu)化的模型在該任務(wù)中表現(xiàn)遜于通用多模態(tài)模型,揭示出視頻轉(zhuǎn)網(wǎng)頁任務(wù)需要超越單純內(nèi)容理解的特殊能力——即將動(dòng)態(tài)行為抽象為程序邏輯的轉(zhuǎn)化能力。
技術(shù)挑戰(zhàn)呈現(xiàn)多維度特征:時(shí)序理解要求模型從連續(xù)視頻幀中提取關(guān)鍵交互事件;邏輯抽象需要將觀察到的行為模式轉(zhuǎn)化為編程概念;資源匹配需在匿名化文件中精準(zhǔn)定位對(duì)應(yīng)資源;代碼生成則要確保HTML/CSS/Javascript的結(jié)構(gòu)合理性與邏輯正確性。這些挑戰(zhàn)共同構(gòu)成了動(dòng)態(tài)網(wǎng)頁重建的技術(shù)壁壘。
該基準(zhǔn)的推出具有雙重價(jià)值:在科研層面,為多模態(tài)模型的動(dòng)態(tài)理解能力提供了量化評(píng)估工具,精準(zhǔn)定位技術(shù)薄弱環(huán)節(jié);在應(yīng)用層面,視頻轉(zhuǎn)網(wǎng)頁技術(shù)的成熟將顯著降低前端開發(fā)門檻,使非技術(shù)人員通過操作演示即可生成功能原型。但研究同時(shí)指出,實(shí)際開發(fā)中的性能優(yōu)化、兼容性處理、安全防護(hù)等復(fù)雜需求,仍難以通過視頻演示完全覆蓋。
行業(yè)觀察認(rèn)為,IWR-Bench標(biāo)志著AI代碼生成技術(shù)從靜態(tài)描述向動(dòng)態(tài)演示的范式轉(zhuǎn)變。與傳統(tǒng)依賴文本描述的編碼助手相比,這種"所見即所得"的開發(fā)模式可能催生新一代原型工具,使產(chǎn)品經(jīng)理通過錄制操作視頻即可生成交互原型。但當(dāng)前模型在復(fù)雜動(dòng)態(tài)交互理解上仍處于初級(jí)階段,視覺還原與邏輯實(shí)現(xiàn)的差距反映出AI在行為理解與程序轉(zhuǎn)化間的技術(shù)鴻溝。
隨著評(píng)測基準(zhǔn)的推廣應(yīng)用,預(yù)計(jì)將引發(fā)更多研究關(guān)注動(dòng)態(tài)行為理解、時(shí)序推理與代碼生成的融合技術(shù)。這種技術(shù)演進(jìn)方向不僅可能重塑AI多模態(tài)模型的應(yīng)用場景,更將為智能開發(fā)工具的創(chuàng)新提供關(guān)鍵技術(shù)支撐,推動(dòng)人機(jī)協(xié)作開發(fā)模式進(jìn)入新階段。








