上海AI實驗室新突破：代碼驅(qū)動，解鎖AI數(shù)學(xué)推理新境界

時間：2025-11-05 17:03:24 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

上海人工智能實驗室聯(lián)合上海交通大學(xué)、蘇州大學(xué)的研究團隊，在人工智能訓(xùn)練領(lǐng)域取得突破性進(jìn)展。他們提出的Caco方法通過引入代碼驗證機制，為AI數(shù)學(xué)推理訓(xùn)練開辟了新路徑。這項成果已發(fā)表于arXiv預(yù)印本平臺，論文編號arXiv:2510.04081v1，為提升AI邏輯推理能力提供了全新解決方案。

傳統(tǒng)AI在解決數(shù)學(xué)問題時，常被比作機械套用公式的"解題機器"。這類系統(tǒng)雖然能輸出答案，但推理過程缺乏邏輯連貫性，錯誤難以追溯。更嚴(yán)峻的是，高質(zhì)量訓(xùn)練數(shù)據(jù)的獲取需要大量人工標(biāo)注，成本高昂且效率低下。研究團隊開發(fā)的Caco方法，通過將數(shù)學(xué)問題轉(zhuǎn)化為可執(zhí)行代碼，構(gòu)建了自動化的質(zhì)量驗證體系，有效解決了這些難題。

該方法的核心在于構(gòu)建"代碼-推理"雙驗證系統(tǒng)。研究團隊首先收集了MATH、DeepScaleR等數(shù)據(jù)集中的30萬個數(shù)學(xué)問題，將其解答過程統(tǒng)一轉(zhuǎn)換為Python代碼格式。每段代碼需包含明確的輸入定義、函數(shù)調(diào)用和輸出結(jié)果，例如概率問題會被轉(zhuǎn)化為包含概率數(shù)組和計算函數(shù)的標(biāo)準(zhǔn)化代碼模塊。這種結(jié)構(gòu)化處理使得推理過程可被計算機自動驗證。

為生成高質(zhì)量訓(xùn)練數(shù)據(jù)，團隊開發(fā)了專門的CodeGen模型。該模型通過無條件生成方式學(xué)習(xí)代碼推理模式，而非簡單記憶問題答案。通過溫度采樣技術(shù)，模型在保持邏輯嚴(yán)謹(jǐn)性的同時引入適度隨機性，最終生成530萬個候選代碼樣本。經(jīng)過可執(zhí)行性、效率和復(fù)雜度三重篩選，最終保留460萬個高質(zhì)量樣本，形成包含130萬個問題-答案對的訓(xùn)練集。

實驗數(shù)據(jù)顯示，Caco方法顯著提升了AI模型的數(shù)學(xué)推理能力。在MATH、GSM8K等六個基準(zhǔn)測試中，LLaMA3-8B模型經(jīng)Caco訓(xùn)練后準(zhǔn)確率從39.7%躍升至57.3%，提升幅度達(dá)44.3%。面對奧林匹克數(shù)學(xué)競賽題目時，該模型準(zhǔn)確率從17.2%提升至34.1%，展現(xiàn)出處理復(fù)雜問題的潛力。專業(yè)數(shù)學(xué)模型Qwen2.5-Math-7B使用Caco數(shù)據(jù)后，準(zhǔn)確率也從63.6%提高到67.7%。

該方法的價值不僅體現(xiàn)在數(shù)學(xué)領(lǐng)域。跨領(lǐng)域測試表明，經(jīng)Caco訓(xùn)練的模型在代碼生成、科學(xué)推理和邏輯推理任務(wù)中同樣表現(xiàn)優(yōu)異。在Humaneval+代碼生成測試中，模型得分從32.3%提升至34.2%；ARC-c科學(xué)推理測試準(zhǔn)確率從79.0%升至83.1%；BBH邏輯推理測試成績從19.8%大幅提高到33.8%。這證明代碼訓(xùn)練形成的嚴(yán)謹(jǐn)思維方式具有廣泛的遷移價值。

研究團隊詳細(xì)記錄了數(shù)據(jù)生成過程的計算成本。在配備8塊A100 GPU的單機環(huán)境下，完成130萬樣本生成需約55小時，包括統(tǒng)一代碼推理（2小時）、代碼擴展（8小時）、問題生成（5小時）和答案生成（40小時）四個階段。完全基于開源模型的實施方案，避免了商業(yè)API的高昂費用，使得該方法具有較高的成本效益。

技術(shù)實現(xiàn)層面，研究團隊采用多模型協(xié)作框架。Qwen2.5-72B-Instruct負(fù)責(zé)統(tǒng)一代碼生成，Qwen2.5-Coder-7B作為CodeGen基礎(chǔ)模型，Qwen3-8B處理自然語言生成，Qwen3-32B進(jìn)行質(zhì)量評估。訓(xùn)練配置采用3個epoch、5×10^-6學(xué)習(xí)率、128批處理大小，配合AdamW優(yōu)化器和余弦學(xué)習(xí)率衰減策略。評估過程嚴(yán)格采用零樣本設(shè)置和貪婪解碼策略，確保結(jié)果可靠性。

這項創(chuàng)新為AI訓(xùn)練提供了新范式。通過將抽象推理轉(zhuǎn)化為可執(zhí)行代碼，不僅解決了傳統(tǒng)方法的質(zhì)量控制難題，還大幅降低了數(shù)據(jù)標(biāo)注成本。代碼的精確性要求促使AI發(fā)展出更嚴(yán)謹(jǐn)?shù)乃季S方式，這種能力可遷移至多個需要邏輯推理的領(lǐng)域。開源的技術(shù)方案降低了應(yīng)用門檻，為開發(fā)更智能的AI系統(tǒng)奠定了基礎(chǔ)。

，這次千問展示了AI模型的自我完善能力，回答“9.9更大”。此前有AI技術(shù)從業(yè)人士對第一財經(jīng)記者表示，大模型本質(zhì)上還是一個語言模型，它從語言數(shù)據(jù)中學(xué)習(xí)的是統(tǒng)計相關(guān)性，而這使它不擅長做規(guī)則學(xué)習(xí)，從而不擅長歸納…

佳都科技集團首席AI科學(xué)家王凱博士在大會主論壇上發(fā)表了《佳都知行智鏈城市經(jīng)緯交通佳鴻驅(qū)動交通未來》的主題演講，系統(tǒng)展示了佳都科技以AI大模型與交通佳鴻操作系統(tǒng)為雙引擎，為城市綜合立體交通提供的創(chuàng)新解決方案。…

這跟人一樣，從出生或者學(xué)校畢業(yè)，即便是博士畢業(yè)，還是有很多工作你不知道該怎么做，所以機器人必須有自主學(xué)習(xí)的能力，因為它永遠(yuǎn)有一些任務(wù)不知道該怎么完成；三是跨本體的泛化操作能力；四是全自主導(dǎo)航能力；五是全鏈路數(shù)…

卡諾普是中國先進(jìn)的工業(yè)機器人公司暨具身智能機器人企業(yè)。在金屬及機械加工行業(yè)及其應(yīng)用方面，公司在中國企業(yè)中居領(lǐng)先地位。據(jù)成都市經(jīng)信局市新經(jīng)濟委的數(shù)據(jù)顯示，2024年，成都市人工智能與機器人已聚集超1000家企…

從結(jié)果上看，R1V4-Lite在多模態(tài)DeepResearch類任務(wù)中展現(xiàn)出了領(lǐng)先趨勢：在mm-search上以66分超過Gemini 2.5 Flash的64.9分，在FVQA上以67分顯著領(lǐng)先Gemin…

中新網(wǎng)南寧11月18日電 (王以照黃麗瑩)11月17日，AI(人工智能)賦能千行百業(yè)超級聯(lián)賽“智慧城市”建設(shè)創(chuàng)新應(yīng)用大賽在廣西南寧啟動。浪潮集團有限公司有關(guān)負(fù)責(zé)人介紹，大賽將有效推動AI技術(shù)創(chuàng)新與住建領(lǐng)域…

2025軟科世界一流學(xué)科排名中，中國內(nèi)地高校在電力電子工程、生物醫(yī)學(xué)工程、材料科學(xué)與工程3個學(xué)科首度問鼎世界第一，使得中國內(nèi)地高校的全球冠軍學(xué)科增加到21個。從學(xué)科的具體排名來看，上海高校共攬獲4個全球冠…

螞蟻集團近日正式推出了一款名為“靈光”的全模態(tài)通用人工智能助手，這款產(chǎn)品憑借其強大的功能迅速吸引了市場關(guān)注。據(jù)介紹，“靈光”能夠在移動端實現(xiàn)“自然語言30秒生成小應(yīng)用”，并且支持用戶對生成內(nèi)容進(jìn)行編輯、交互和分享，為用戶提供了更加靈活便捷的智能服務(wù)體驗

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

上海AI實驗室新突破：代碼驅(qū)動，解鎖AI數(shù)學(xué)推理新境界

日本精品一区二区三区高清久久