人工智能領(lǐng)域長期面臨空間理解能力的瓶頸,即便最先進(jìn)的多模態(tài)大模型也常在基礎(chǔ)空間任務(wù)上出錯。華中科技大學(xué)連世杰、吳長提團隊聯(lián)合多家研究機構(gòu),通過讓AI系統(tǒng)學(xué)習(xí)幾何知識,成功突破了這一技術(shù)壁壘。該研究成果以預(yù)印本形式發(fā)表于arXiv平臺(編號arXiv:2509.24473v2),揭示了幾何訓(xùn)練對空間智能提升的顯著效果。
研究團隊構(gòu)建的Euclid30K數(shù)據(jù)集包含近3萬個幾何問題,涵蓋平面幾何與立體幾何兩大領(lǐng)域。數(shù)據(jù)收集過程中,研究人員發(fā)現(xiàn)現(xiàn)有數(shù)據(jù)集存在嚴(yán)重失衡:立體幾何題目僅占現(xiàn)有資源的23%。為此,他們從Geometry3K、MMK12等開源庫篩選優(yōu)質(zhì)題目,同時新增4500個立體幾何問題,重點補充空間關(guān)系判斷、動態(tài)運動分析等復(fù)雜題型。經(jīng)過三階段質(zhì)量控制,包括圖像去重、問題拆解和格式標(biāo)準(zhǔn)化,最終形成覆蓋初中到高中全課程體系的數(shù)據(jù)集。
幾何訓(xùn)練的核心價值在于其系統(tǒng)性。研究團隊將幾何問題視為空間規(guī)律的"訓(xùn)練場",通過GRPO強化學(xué)習(xí)框架,讓AI模型在解題過程中掌握形狀識別、空間推理和數(shù)值計算等綜合能力。實驗數(shù)據(jù)顯示,經(jīng)過幾何訓(xùn)練的RoboBrain2.0-7B模型在VSI-Bench測試中準(zhǔn)確率達(dá)49.6%,超越此前48.4%的最佳紀(jì)錄。更值得注意的是,該模型僅使用3萬條幾何數(shù)據(jù)就達(dá)到這一水平,而同期對比模型使用了12萬條專用空間數(shù)據(jù)。
在Super-CLEVR測試中,幾何訓(xùn)練展現(xiàn)驚人效果。Qwen2.5VL-7B模型的準(zhǔn)確率從76.1%躍升至86.2%,RoboBrain2.0-7B的提升幅度更達(dá)37.8個百分點。這種跨越式進(jìn)步源于幾何知識的強遷移性——模型學(xué)會的平行判斷、比例計算等基礎(chǔ)技能,可直接應(yīng)用于現(xiàn)實場景中的物體定位和空間關(guān)系分析。研究團隊特別指出,立體幾何訓(xùn)練對三維空間理解的提升尤為顯著,在Omni3D-Bench測試中,相關(guān)模型的空間定位準(zhǔn)確率提升2.8個百分點。
技術(shù)實現(xiàn)層面,研究團隊采用多項創(chuàng)新設(shè)計。獎勵函數(shù)針對不同題型定制評判標(biāo)準(zhǔn):數(shù)學(xué)表達(dá)式答案通過MathVerify工具進(jìn)行符號等價驗證,數(shù)值答案則設(shè)置1%的嚴(yán)格誤差容忍度。訓(xùn)練過程中,每個問題生成8個候選答案,通過組內(nèi)比較優(yōu)化解題策略。這種設(shè)計使模型既能掌握數(shù)學(xué)本質(zhì),又能適應(yīng)不同表達(dá)形式。硬件配置上,64塊NVIDIA H100 GPU組成的計算集群,為大規(guī)模強化學(xué)習(xí)提供算力支持。
實際應(yīng)用場景中,幾何訓(xùn)練提升的空間智能已展現(xiàn)多重價值。在機器人導(dǎo)航領(lǐng)域,經(jīng)過訓(xùn)練的模型能更精準(zhǔn)判斷物體間距和運動軌跡;醫(yī)療影像分析方面,AI對器官尺寸的測量誤差顯著降低;自動駕駛系統(tǒng)則獲得更可靠的空間關(guān)系判斷能力。研究團隊強調(diào),這種基礎(chǔ)能力訓(xùn)練具有高通用性,相比為每個應(yīng)用單獨收集數(shù)據(jù),幾何訓(xùn)練方案可降低60%以上的開發(fā)成本。
對比實驗進(jìn)一步驗證了幾何訓(xùn)練的獨特優(yōu)勢。使用CLEVR-CoGenT數(shù)據(jù)集訓(xùn)練的模型雖也有提升,但效果局限于特定任務(wù)類型。幾何訓(xùn)練的優(yōu)勢在于其覆蓋空間智能的核心要素,包括形狀識別準(zhǔn)確率提升12%、空間關(guān)系判斷一致性提高18%、數(shù)值計算精確度改進(jìn)9%。這些基礎(chǔ)能力的提升,使模型在物體計數(shù)、距離估算等基礎(chǔ)任務(wù)上的準(zhǔn)確率普遍提高5-8個百分點。
研究也揭示當(dāng)前方法的局限性。在涉及時間序列的空間任務(wù)中,幾何訓(xùn)練的效果相對有限,這提示未來需結(jié)合時序?qū)W習(xí)進(jìn)行能力拓展。對于需要特定領(lǐng)域知識的復(fù)雜空間分析,幾何基礎(chǔ)訓(xùn)練仍需補充專業(yè)數(shù)據(jù)。盡管如此,該研究為AI空間智能發(fā)展開辟了新路徑——通過系統(tǒng)化學(xué)習(xí)基礎(chǔ)理論,可高效構(gòu)建通用空間能力,這種"以簡馭繁"的方法論或?qū)⒊蔀樾袠I(yè)重要方向。











