法國里爾大學、法國國家信息與自動化研究所、法國國家科學研究中心及里爾中央理工學院聯合團隊近日宣布,開發出一款名為“推理核心”(Reasoning Core)的AI訓練環境,旨在系統性提升人工智能的符號推理能力。該研究成果已發表于學術平臺arXiv,論文編號為arXiv:2509.18083v1,核心貢獻者包括Valentin Lacombe、Valentin Quesnel和Damien Sileo。
傳統AI訓練依賴固定題庫或簡單游戲任務,存在兩大缺陷:一是題目數量有限,模型易通過記憶答案而非真正理解完成訓練;二是任務類型單一,難以覆蓋現實場景中復雜的邏輯需求。研究團隊形象地比喻,現有方法如同僅通過加減法訓練學生,卻期望其掌握微積分能力。為此,他們構建了一個可無限生成多樣化挑戰的“虛擬健身房”,通過動態調節任務難度,幫助AI系統掌握人類邏輯思維的基石技能。
“推理核心”的獨特性體現在三方面:首先,其任務設計聚焦于PDDL規劃、一階邏輯、上下文無關文法解析等核心符號推理領域,這些能力被視為構建通用智能的基礎;其次,系統配備連續型難度調節器,可精準控制問題復雜度,實現從初級到高級的無縫過渡;第三,集成定理證明器、規劃引擎等專業驗證工具,確保答案評估的客觀性與權威性。實驗顯示,即使是最先進的GPT-5模型,在面對該環境生成的高難度任務時,正確率仍顯著低于人類水平,驗證了訓練環境的有效性。
研究團隊精選了18個訓練任務,覆蓋五大能力維度。規劃類任務要求AI在隨機生成的約束條件下制定行動序列,培養其動態決策能力;邏輯推理類任務涉及公理選擇、證明重構等,強化嚴密論證技巧;自然語言推理任務將形式邏輯轉化為自然語言問題,提升語言與邏輯的銜接能力;數學計算類任務包含方程求解、序列歸納等,訓練符號操作與模式識別;因果推理類任務基于貝葉斯網絡,區分相關性、因果性及干預效果。每個任務均通過上下文無關文法生成,確保問題結構可控且具有擴展性。
技術實現上,該系統采用創新的數據生成流水線,支持離線并行處理,可快速產出大量高質量訓練樣本。難度控制機制通過映射連續參數至具體生成規則實現,對離散變量采用概率舍入法,避免難度跳躍。外部工具集成確保驗證過程嚴格可靠,例如使用Vampire定理證明器驗證邏輯任務,符號代數系統檢查方程求解結果。數據質量保障模塊自動過濾無效問題,控制數值范圍,防止訓練偏差。
初步評估采用零樣本測試,GPT-5在簡單模式(難度0)和困難模式(難度5)下的表現差異顯著。結果顯示,模型在集合操作、基礎算術等任務中表現相對較好,但在PDDL規劃、定理證明等復雜任務中正確率不足30%。這表明當前AI模型更擅長統計模式匹配,而非嚴格的邏輯推導。難度調節的有效性得到驗證,困難模式下模型性能平均下降42%,為自適應課程學習提供了技術基礎。
與傳統訓練方法相比,“推理核心”代表了一種范式轉變:從被動依賴海量數據轉向主動構建能力體系。其開源特性允許全球研究者共同完善系統,可能推動AI評估標準革新——通過動態調節難度,更精準測量模型的真實推理水平。基于符號推理的訓練或能提升AI的可解釋性,為醫療、金融等高風險領域的應用提供安全保障。
盡管已取得突破,研究團隊指出,未來需擴展任務覆蓋范圍,納入時間推理、空間推理等更多認知維度;優化自適應難度調節機制,實現實時個性化訓練;完善部分正確答案的評分體系,提升訓練效率。該成果為AI推理能力的發展提供了新路徑,預示著下一代智能系統或將具備更接近人類的邏輯思維能力。











