耶魯大學(xué)研究團隊開發(fā)出一套名為MMVU的創(chuàng)新評估系統(tǒng),專門用于檢測人工智能模型在專業(yè)視頻理解領(lǐng)域的表現(xiàn)。該系統(tǒng)通過讓AI觀看科學(xué)實驗、醫(yī)學(xué)手術(shù)、工程演示等真實場景視頻并回答相關(guān)問題,模擬人類專業(yè)考試環(huán)境,為AI技術(shù)發(fā)展提供全新評估維度。
研究團隊構(gòu)建了包含3000道題目的測試庫,覆蓋科學(xué)、醫(yī)療、工程、人文四大領(lǐng)域27個細分學(xué)科。每道題目均由領(lǐng)域?qū)<腋鶕?jù)權(quán)威教材設(shè)計,要求AI不僅識別視頻內(nèi)容,還需運用專業(yè)知識進行深度推理。例如在化學(xué)測試中,AI需通過觀察反應(yīng)現(xiàn)象計算產(chǎn)物質(zhì)量;工程測試則要求識別機械運轉(zhuǎn)背后的算法原理。
測試嚴格排除含文字說明的視頻素材,僅使用具有創(chuàng)意共用許可證的YouTube內(nèi)容,確保評估聚焦視覺理解能力。專家團隊采用"課本指導(dǎo)"出題法,先確定核心知識點,再尋找匹配視頻,最后設(shè)計需要綜合運用的復(fù)雜問題。每題均配備詳細解答和專業(yè)背景說明,便于分析模型錯誤根源。
參與測試的32個前沿AI模型來自17個機構(gòu),包括OpenAI、Google等科技企業(yè)的商業(yè)模型和開源社區(qū)作品。測試設(shè)置"思維鏈推理"和"直接回答"兩種模式,前者要求模型展示推理過程,后者僅需給出答案。結(jié)果顯示,OpenAI的o1模型以80%準確率領(lǐng)先,Google的Gemini 2.0 Flash Thinking緊隨其后,但多數(shù)模型表現(xiàn)明顯弱于人類專家。
人類專家測試分為閉卷、開卷和答案修正三個階段。閉卷考試中,5位跨學(xué)科專家在3.5小時內(nèi)完成隨機抽取的120題,平均準確率49.7%;開卷階段允許使用外部資源后,準確率躍升至86.8%;參考標準答案修正后,準確率達95.3%。對比顯示,當前頂尖AI模型已接近人類開卷水平,但多數(shù)模型仍有顯著差距。
錯誤分析揭示AI五大薄弱環(huán)節(jié):視覺感知錯誤占比18%,如混淆算法類型;視覺專業(yè)知識誤用占20%,如誤判實驗設(shè)備;推理專業(yè)知識誤用達27%,如錯誤歸因生物學(xué)現(xiàn)象;過度依賴文字信息占20%,忽視視頻關(guān)鍵證據(jù);邏輯矛盾占6%。這些錯誤類型為技術(shù)改進指明方向,顯示AI在知識整合和復(fù)雜推理方面存在根本性局限。
開源模型表現(xiàn)超出預(yù)期,Qwen2-VL-72B等作品在閉卷測試中超越人類平均水平。研究特別指出,具備長時間推理能力的模型表現(xiàn)更優(yōu),o1和Gemini 2.0 Flash Thinking通過延長思考周期顯著提升準確率。這提示延長AI"思考時間"可能是提升專業(yè)理解能力的有效途徑。
該研究通過系統(tǒng)化評估證明,現(xiàn)有AI在專業(yè)視頻理解領(lǐng)域仍處初級階段。盡管頂尖模型已展現(xiàn)潛力,但在醫(yī)療診斷、工程設(shè)計等關(guān)鍵領(lǐng)域,AI系統(tǒng)仍需突破知識整合、上下文理解和邏輯推理等多重挑戰(zhàn)。MMVU評估框架的建立,為追蹤AI專業(yè)能力發(fā)展提供了可持續(xù)的基準工具。