滾動資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內(nèi)容

谷歌DeepMind新基準(zhǔn)QuestBench：考驗AI模型“填補(bǔ)信息漏洞”實力

時間：2025-04-26 15:05:20 來源：ITBEAR編輯：快訊團(tuán)隊 發(fā)表評論無障礙通道

近期，科技界傳來一項新進(jìn)展，谷歌DeepMind團(tuán)隊推出了一項名為QuestBench的全新基準(zhǔn)測試，旨在評估大型語言模型（LLMs）在推理任務(wù)中識別和填補(bǔ)信息缺口的能力。這一創(chuàng)新舉措針對現(xiàn)實世界中信息不完整的問題，為LLMs的發(fā)展提供了新的挑戰(zhàn)與機(jī)遇。

在各類推理任務(wù)中，如數(shù)學(xué)、邏輯、規(guī)劃和編碼等領(lǐng)域，大型語言模型正受到越來越多的關(guān)注。然而，實際應(yīng)用場景往往伴隨著大量的不確定性，例如用戶提問時可能遺漏關(guān)鍵信息，或機(jī)器人等自主系統(tǒng)需要在部分可觀測的環(huán)境中運行。這種理想與現(xiàn)實之間的差距，使得LLMs必須發(fā)展出主動獲取缺失信息的能力。

QuestBench基準(zhǔn)測試正是為了應(yīng)對這一挑戰(zhàn)而生。它采用約束滿足問題（CSPs）的框架，特別關(guān)注“1-sufficient CSPs”，即只需一個未知變量的信息即可解決目標(biāo)變量的問題。該測試覆蓋了邏輯推理、規(guī)劃和小學(xué)數(shù)學(xué)三個領(lǐng)域，通過變量數(shù)量、約束數(shù)量、搜索深度和暴力搜索所需猜測次數(shù)四個維度，對模型的推理策略和性能瓶頸進(jìn)行精準(zhǔn)評估。

據(jù)悉，QuestBench已經(jīng)對包括GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental等在內(nèi)的多個領(lǐng)先模型進(jìn)行了測試，測試環(huán)境涵蓋了零樣本、思維鏈和四樣本設(shè)置。測試結(jié)果顯示，思維鏈提示在提升模型性能方面發(fā)揮了普遍作用，而Gemini 2.0 Flash Thinking Experimental在規(guī)劃任務(wù)中展現(xiàn)出了最佳表現(xiàn)。

開源模型在邏輯推理方面表現(xiàn)出了一定的競爭力，但在處理復(fù)雜的數(shù)學(xué)問題時則顯得力不從心。研究指出，盡管當(dāng)前模型在解決簡單代數(shù)問題上表現(xiàn)尚可，但隨著問題復(fù)雜性的增加，其性能顯著下降。這一發(fā)現(xiàn)揭示了LLMs在信息缺口識別和澄清能力方面仍有較大的改進(jìn)空間。

QuestBench基準(zhǔn)測試的推出，不僅為評估LLMs在推理任務(wù)中的性能提供了新的工具，也為推動LLMs在信息獲取和推理能力方面的發(fā)展指明了方向。隨著技術(shù)的不斷進(jìn)步，我們有理由相信，未來的LLMs將能夠更好地應(yīng)對現(xiàn)實世界中的不確定性，為人類提供更加準(zhǔn)確和可靠的解決方案。

QuestBench測試還涵蓋了288個GSM-Q和151個GSME-Q任務(wù)，這些任務(wù)的設(shè)計充分考慮了現(xiàn)實世界的復(fù)雜性，使得測試結(jié)果更加貼近實際應(yīng)用場景。通過這一基準(zhǔn)測試，我們可以更加清晰地了解LLMs在不同領(lǐng)域和難度下的表現(xiàn)，從而為模型的進(jìn)一步優(yōu)化和改進(jìn)提供有力支持。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

Token-Shuffle突破！自回歸模型也能高效生成高清圖像

04-26

19芯光纖新突破！1808公里傳輸每秒破1.02Pb，光通信技術(shù)再攀高峰

04-26

魏牌2025上海車展大放異彩，雙旗艦引領(lǐng)新能源出行新風(fēng)尚

04-26

螞蟻集團(tuán)大派“紅包”，全體員工股東共享經(jīng)營成果

螞蟻集團(tuán)于近期召開股東大會，審議通過了利潤分配議案。根據(jù)方案，螞蟻集團(tuán)將向全體股東分紅，持有股權(quán)激勵工具的員工也將享有分紅對應(yīng)的經(jīng)濟(jì)利益。螞蟻集團(tuán)表示，這次分紅，源于過去一年的經(jīng)營成果。螞蟻集團(tuán)認(rèn)為，公司…

04-26

騰勢Z概念跑車全球首發(fā)，云輦M與全棧自研線控轉(zhuǎn)向系統(tǒng)引領(lǐng)科技潮流

04-26

螞蟻集團(tuán)全資子公司擬28億港元收購耀才證券半數(shù)股份

4月26日消息，耀才證券金融集團(tuán)有限公司（簡稱“耀才證券”）公告，上海云進(jìn)信息技術(shù)有限公司（簡稱“上海云進(jìn)”）通過旗下子公司，向耀才證券發(fā)起要約收購。買賣雙方已于4月25日簽訂協(xié)議，交易股份約8.58億股，…

04-26

這個鏈接可能存在安全風(fēng)險，為了保護(hù)您的設(shè)備和數(shù)據(jù)安全，請避免訪問此鏈接。

04-26

SK海力士逆襲！三星33年DRAM霸主地位，終被AI時代HBM技術(shù)顛覆

04-26

HCL Notes郵件應(yīng)用遭Win11新更新“攔截”，用戶如何應(yīng)對？

04-26

《灰獵犬號》續(xù)集來襲！湯姆·漢克斯2026年自編自演轉(zhuǎn)戰(zhàn)太平洋

04-26

OPPO高層變動：劉波卸任中國區(qū)總裁，段要輝全面接管

04-26

餓了么首推算法勞動協(xié)議，騎手權(quán)益保障全面升級！

04-26

克里斯·埃文斯重返漫威，新角色竟是九頭蛇隊長還是超越者？

04-26

大阪世博會上的日本動漫盛宴：Japan Expo盛大啟幕！

04-26

佰維全自研電力專用eMMC上市，國產(chǎn)存儲助力電力行業(yè)穩(wěn)定前行

04-26

點擊查看更多 +

全站最新

鈦3科技潮品SUV登陸江蘇，引領(lǐng)全民智潮生活新風(fēng)尚！

騰勢Z概念跑車全球首發(fā)，云輦M與全棧自研線控轉(zhuǎn)向系統(tǒng)引領(lǐng)科技潮流

2025深圳禮品家居展啟幕，禮業(yè)新生態(tài)與文化消費盛宴共綻放！

奇瑞集團(tuán)上海車展大放異彩，海陸空黑科技彰顯全球冠軍實力！

蔚來李斌：2025年四季度盈利目標(biāo)堅定，新產(chǎn)品與布局將迎收獲期

德賽西威發(fā)布Smart Solution 3.0，全棧技術(shù)引領(lǐng)智慧出行新時代

熱門內(nèi)容

本欄最新

騰勢Z概念跑車全球首發(fā)，云輦M與全棧自研線控轉(zhuǎn)向系統(tǒng)引領(lǐng)科技潮流

SK海力士逆襲！三星33年DRAM霸主地位，終被AI時代HBM技術(shù)顛覆

《灰獵犬號》續(xù)集來襲！湯姆·漢克斯2026年自編自演轉(zhuǎn)戰(zhàn)太平洋

OPPO高層變動：劉波卸任中國區(qū)總裁，段要輝全面接管

餓了么首推算法勞動協(xié)議，騎手權(quán)益保障全面升級！

大阪世博會上的日本動漫盛宴：Japan Expo盛大啟幕！

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

谷歌DeepMind新基準(zhǔn)QuestBench：考驗AI模型“填補(bǔ)信息漏洞”實力

日本精品一区二区三区高清久久