勞德研究所近日正式推出名為“彈弓”的首批人工智能專項資助計劃,目標直指推動人工智能領(lǐng)域的科學探索與實踐應用。該計劃通過整合資金、算力資源及工程支持,為研究人員提供超越傳統(tǒng)學術(shù)框架的配套條件,加速人工智能技術(shù)的突破與落地轉(zhuǎn)化。作為資助條件,受資助方需承諾產(chǎn)出具有商業(yè)轉(zhuǎn)化潛力的成果,包括但不限于初創(chuàng)企業(yè)、開源技術(shù)或創(chuàng)新研究報告。
在首批入選的15個項目中,AI評估體系的優(yōu)化成為核心關(guān)注方向。多個項目已在行業(yè)內(nèi)引發(fā)關(guān)注,例如專注于命令行編碼能力測試的Terminal Bench工具,以及持續(xù)更新通用人工智能能力評估標準的ARC-AGI項目。這些項目通過構(gòu)建標準化測試框架,為AI性能衡量提供了可量化的參考依據(jù)。
針對當前評估機制存在的局限性,多支跨學科團隊提出了創(chuàng)新解決方案。加州理工學院與德克薩斯大學奧斯汀分校聯(lián)合開發(fā)的Formula Code項目,通過模擬真實代碼優(yōu)化場景,評估AI代理的改進能力;哥倫比亞大學團隊設計的BizBench平臺,則聚焦白領(lǐng)工作場景,構(gòu)建覆蓋商業(yè)決策、文檔處理等任務的復合測試體系。部分項目嘗試結(jié)合強化學習與模型輕量化技術(shù),探索建立跨領(lǐng)域通用的評估標準。
值得關(guān)注的是,SWE-Bench聯(lián)合創(chuàng)始人John Boda Yang攜新項目CodeClash加入資助計劃。該項目借鑒競賽式評估模式,通過動態(tài)任務設計測試AI代碼生成能力。Yang在訪談中強調(diào),第三方基準測試的開放性對行業(yè)健康發(fā)展至關(guān)重要,但需警惕評估體系被單一企業(yè)壟斷的風險,這可能阻礙技術(shù)創(chuàng)新的公平競爭環(huán)境。勞德研究所通過“彈弓”計劃構(gòu)建的產(chǎn)學研協(xié)同網(wǎng)絡,正在重塑人工智能技術(shù)的轉(zhuǎn)化路徑。該計劃不僅為前沿研究提供資源支持,更通過設定明確的轉(zhuǎn)化目標,推動學術(shù)成果向商業(yè)應用的快速過渡。這種模式被業(yè)內(nèi)視為破解AI評估體系碎片化難題的重要嘗試,其實際效果將持續(xù)引發(fā)關(guān)注。






