上海人工智能實驗室聯(lián)合上海交通大學(xué)、蘇州大學(xué)的研究團隊,在人工智能訓(xùn)練領(lǐng)域取得突破性進(jìn)展。他們提出的Caco方法通過引入代碼驗證機制,為AI數(shù)學(xué)推理訓(xùn)練開辟了新路徑。這項成果已發(fā)表于arXiv預(yù)印本平臺,論文編號arXiv:2510.04081v1,為提升AI邏輯推理能力提供了全新解決方案。
傳統(tǒng)AI在解決數(shù)學(xué)問題時,常被比作機械套用公式的"解題機器"。這類系統(tǒng)雖然能輸出答案,但推理過程缺乏邏輯連貫性,錯誤難以追溯。更嚴(yán)峻的是,高質(zhì)量訓(xùn)練數(shù)據(jù)的獲取需要大量人工標(biāo)注,成本高昂且效率低下。研究團隊開發(fā)的Caco方法,通過將數(shù)學(xué)問題轉(zhuǎn)化為可執(zhí)行代碼,構(gòu)建了自動化的質(zhì)量驗證體系,有效解決了這些難題。
該方法的核心在于構(gòu)建"代碼-推理"雙驗證系統(tǒng)。研究團隊首先收集了MATH、DeepScaleR等數(shù)據(jù)集中的30萬個數(shù)學(xué)問題,將其解答過程統(tǒng)一轉(zhuǎn)換為Python代碼格式。每段代碼需包含明確的輸入定義、函數(shù)調(diào)用和輸出結(jié)果,例如概率問題會被轉(zhuǎn)化為包含概率數(shù)組和計算函數(shù)的標(biāo)準(zhǔn)化代碼模塊。這種結(jié)構(gòu)化處理使得推理過程可被計算機自動驗證。
為生成高質(zhì)量訓(xùn)練數(shù)據(jù),團隊開發(fā)了專門的CodeGen模型。該模型通過無條件生成方式學(xué)習(xí)代碼推理模式,而非簡單記憶問題答案。通過溫度采樣技術(shù),模型在保持邏輯嚴(yán)謹(jǐn)性的同時引入適度隨機性,最終生成530萬個候選代碼樣本。經(jīng)過可執(zhí)行性、效率和復(fù)雜度三重篩選,最終保留460萬個高質(zhì)量樣本,形成包含130萬個問題-答案對的訓(xùn)練集。
實驗數(shù)據(jù)顯示,Caco方法顯著提升了AI模型的數(shù)學(xué)推理能力。在MATH、GSM8K等六個基準(zhǔn)測試中,LLaMA3-8B模型經(jīng)Caco訓(xùn)練后準(zhǔn)確率從39.7%躍升至57.3%,提升幅度達(dá)44.3%。面對奧林匹克數(shù)學(xué)競賽題目時,該模型準(zhǔn)確率從17.2%提升至34.1%,展現(xiàn)出處理復(fù)雜問題的潛力。專業(yè)數(shù)學(xué)模型Qwen2.5-Math-7B使用Caco數(shù)據(jù)后,準(zhǔn)確率也從63.6%提高到67.7%。
該方法的價值不僅體現(xiàn)在數(shù)學(xué)領(lǐng)域。跨領(lǐng)域測試表明,經(jīng)Caco訓(xùn)練的模型在代碼生成、科學(xué)推理和邏輯推理任務(wù)中同樣表現(xiàn)優(yōu)異。在Humaneval+代碼生成測試中,模型得分從32.3%提升至34.2%;ARC-c科學(xué)推理測試準(zhǔn)確率從79.0%升至83.1%;BBH邏輯推理測試成績從19.8%大幅提高到33.8%。這證明代碼訓(xùn)練形成的嚴(yán)謹(jǐn)思維方式具有廣泛的遷移價值。
研究團隊詳細(xì)記錄了數(shù)據(jù)生成過程的計算成本。在配備8塊A100 GPU的單機環(huán)境下,完成130萬樣本生成需約55小時,包括統(tǒng)一代碼推理(2小時)、代碼擴展(8小時)、問題生成(5小時)和答案生成(40小時)四個階段。完全基于開源模型的實施方案,避免了商業(yè)API的高昂費用,使得該方法具有較高的成本效益。
技術(shù)實現(xiàn)層面,研究團隊采用多模型協(xié)作框架。Qwen2.5-72B-Instruct負(fù)責(zé)統(tǒng)一代碼生成,Qwen2.5-Coder-7B作為CodeGen基礎(chǔ)模型,Qwen3-8B處理自然語言生成,Qwen3-32B進(jìn)行質(zhì)量評估。訓(xùn)練配置采用3個epoch、5×10^-6學(xué)習(xí)率、128批處理大小,配合AdamW優(yōu)化器和余弦學(xué)習(xí)率衰減策略。評估過程嚴(yán)格采用零樣本設(shè)置和貪婪解碼策略,確保結(jié)果可靠性。
這項創(chuàng)新為AI訓(xùn)練提供了新范式。通過將抽象推理轉(zhuǎn)化為可執(zhí)行代碼,不僅解決了傳統(tǒng)方法的質(zhì)量控制難題,還大幅降低了數(shù)據(jù)標(biāo)注成本。代碼的精確性要求促使AI發(fā)展出更嚴(yán)謹(jǐn)?shù)乃季S方式,這種能力可遷移至多個需要邏輯推理的領(lǐng)域。開源的技術(shù)方案降低了應(yīng)用門檻,為開發(fā)更智能的AI系統(tǒng)奠定了基礎(chǔ)。











