滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

谷歌DeepMind新基準QuestBench：考驗AI模型填補信息空白實力

時間：2025-04-26 17:33:29 來源：ITBEAR編輯：快訊團隊 發表評論無障礙通道

近期，科技界迎來了一項新的突破，谷歌DeepMind團隊推出了名為QuestBench的新基準，旨在評估大型語言模型（LLMs）在推理任務中識別和獲取缺失信息的能力。這一創新工具通過約束滿足問題（CSPs）框架，為LLMs在信息不完備場景下的應用提供了更為精確的衡量標準。

在現實世界中，無論是用戶提出數學問題時的信息遺漏，還是自主系統在部分可觀測環境中工作時的挑戰，都凸顯了理想化完整信息設定與現實問題之間的矛盾。這一矛盾促使LLMs必須發展出主動信息獲取的能力，以應對復雜多變的應用場景。

QuestBench基準的推出，正是為了解決這一難題。它專注于評估LLMs在推理任務中識別缺失信息的能力，將問題形式化為約束滿足問題，并特別關注“1-sufficient CSPs”，即那些只需知道一個未知變量值即可解決目標變量的問題。這一框架不僅覆蓋了邏輯推理、規劃和小學數學等多個領域，還通過變量數量、約束數量、搜索深度和暴力搜索所需猜測次數等四個難度軸，精準揭示了模型的推理策略和性能瓶頸。

為了全面評估QuestBench基準的有效性，研究者們對包括GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental等在內的多個領先模型進行了測試。測試覆蓋了零樣本、思維鏈和四樣本設置，涉及了288個GSM-Q和151個GSME-Q任務，時間跨度從2024年6月至2025年3月。

測試結果表明，思維鏈提示在提升模型性能方面發揮了重要作用。在規劃任務中，Gemini 2.0 Flash Thinking Experimental模型表現尤為突出。然而，盡管開源模型在邏輯推理方面具有一定的競爭力，但在面對復雜數學問題時，其表現卻不盡如人意。研究指出，當前模型在簡單代數問題上尚能應對，但隨著問題復雜性的增加，其性能顯著下降，這凸顯了在信息缺口識別和澄清能力上的巨大改進空間。

QuestBench基準還揭示了不同模型在不同難度軸上的表現差異。例如，在某些變量數量較多、約束條件復雜的問題上，某些模型可能表現出更高的搜索深度和更強的猜測能力，而在其他情況下，則可能因缺乏足夠的信息而陷入困境。這些發現為未來的模型優化和算法改進提供了寶貴的參考。

QuestBench基準的推出不僅為LLMs在信息不完備場景下的應用提供了新的衡量標準，也為未來的模型優化和算法改進指明了方向。隨著技術的不斷進步和應用的日益廣泛，我們有理由相信，LLMs將在更多領域展現出其強大的推理能力和應用價值。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

AMD Radeon RX 9000M系列筆記本顯卡詳情曝光：Navi 48/44架構，六款型號齊亮相？

04-26

19芯光纖創紀錄：每秒1.02Pb傳輸速度，超長距離通信迎新突破！

04-26

Windows地圖應用7月“退場”，用戶何去何從？

04-26

肖戰《射雕英雄傳》票房不佳，中影財報曝顯著虧損，未來何去何從？

04-26

OpenAI新推輕量版Deep Research，o4-mini模型賦能AI搜索

04-26

美國3D打印星巴克亮相，即將在得州開業迎客！

04-26

壓力到抑郁，浙大團隊揭秘神經機制，新療法有望？

04-26

云南：從邊疆“后花園”到亞洲“心臟”的華麗轉身

人們驚嘆于大象的“任性”，卻沒意識到，這背后是云南生態保護的“奇跡”——亞洲象種群數量從1980年的193頭增至2024年的300余頭，森林覆蓋率達65.04%，15.6%的國土面積劃為自然保護區，這里成了…

04-26

恒豐紙業并購錦豐紙業，構建南北雙基地，引領特種紙行業新篇章

業務與產品協同上，錦豐紙業擁有卷煙紙生產許可和多年卷煙配套用紙生產的歷史積淀，生產的產品與恒豐紙業主要系列產品相近，有利于恒豐紙業通過對錦豐紙業產品、市場、產能等各個要素的深度整合，實現特種紙主業補鏈強鏈，…

04-26

試駕遇事故，責任歸屬大揭秘：4S店與試駕者如何分擔？

04-26

迅猛龍特蕾莎考研復旦成功，顏值與學霸并存，網友為何反響不一？

04-26

極核AE8 S+MY25電動摩托車震撼上市，極速110km/h，首發特惠23180元！

04-26

國產串列加速器新突破！我國首臺套商品化設備成功研制

04-26

安卓版本分布大不同！安卓15裝機率低至4.5%，14成主流占27.4%

04-26

青海大柴旦：中國最高海拔風光儲項目首批風機成功并網！

04-26

點擊查看更多 +

全站最新

聯想小新Pro 14 GT天青藍版來襲，英特爾AMD雙選，價格6599元起！

紅旗蘭天攜手，湖湘大地綻放民族汽車品牌新輝煌！

地平線榮獲全球首張ISO/PAS 8800認證，構建智能駕駛安全新高度！

肖戰《射雕英雄傳》票房不佳，中影財報曝顯著虧損，未來何去何從？

OpenAI新推輕量版Deep Research，o4-mini模型賦能AI搜索

聯想小新Pro 14 GT天青藍版上市，英特爾AMD雙選，價格6599元起

熱門內容

本欄最新

肖戰《射雕英雄傳》票房不佳，中影財報曝顯著虧損，未來何去何從？

OpenAI新推輕量版Deep Research，o4-mini模型賦能AI搜索

美國3D打印星巴克亮相，即將在得州開業迎客！

云南：從邊疆“后花園”到亞洲“心臟”的華麗轉身

恒豐紙業并購錦豐紙業，構建南北雙基地，引領特種紙行業新篇章

試駕遇事故，責任歸屬大揭秘：4S店與試駕者如何分擔？

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

谷歌DeepMind新基準QuestBench：考驗AI模型填補信息空白實力

日本精品一区二区三区高清久久