人工智能訓(xùn)練領(lǐng)域迎來一項(xiàng)突破性進(jìn)展。由武漢大學(xué)、國(guó)防科技大學(xué)、南洋理工大學(xué)及AGH科拉科夫大學(xué)學(xué)者組成的跨學(xué)科團(tuán)隊(duì),聯(lián)合字節(jié)跳動(dòng)公司研發(fā)出新型訓(xùn)練框架MAPO(混合優(yōu)勢(shì)策略優(yōu)化),有效解決了大型語言模型推理訓(xùn)練中的評(píng)分偏差難題。相關(guān)研究成果已發(fā)表于arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2509.18849v3)。
研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前主流的GRPO(組相對(duì)策略優(yōu)化)訓(xùn)練方法存在根本性缺陷。該技術(shù)通過比較多個(gè)解題思路的優(yōu)劣來指導(dǎo)模型學(xué)習(xí),但采用"一刀切"的評(píng)分標(biāo)準(zhǔn)——無論題目難易,均使用相同的評(píng)價(jià)體系。這種模式導(dǎo)致兩個(gè)典型問題:一是"優(yōu)勢(shì)反轉(zhuǎn)"現(xiàn)象,即簡(jiǎn)單題目的偶然錯(cuò)誤被過度懲罰;二是"優(yōu)勢(shì)鏡像"現(xiàn)象,本質(zhì)不同的問題(如全員正確與全員錯(cuò)誤)獲得對(duì)稱評(píng)分。
針對(duì)上述缺陷,MAPO框架創(chuàng)新性引入"軌跡確定性"評(píng)估機(jī)制。該指標(biāo)通過分析模型多次嘗試的表現(xiàn)穩(wěn)定性,將問題劃分為高確定性(簡(jiǎn)單或極難)和低確定性(能力邊界)兩類。對(duì)于高確定性問題,系統(tǒng)采用"優(yōu)勢(shì)百分比偏差"評(píng)分法,重點(diǎn)考察答案質(zhì)量相對(duì)于群體水平的比例關(guān)系;對(duì)于低確定性問題,則延續(xù)傳統(tǒng)標(biāo)準(zhǔn)化評(píng)分。
技術(shù)實(shí)現(xiàn)層面,MAPO構(gòu)建了動(dòng)態(tài)權(quán)重調(diào)節(jié)系統(tǒng)。當(dāng)模型在特定問題上的正確率接近50%時(shí),系統(tǒng)自動(dòng)增強(qiáng)傳統(tǒng)評(píng)分方法的權(quán)重;當(dāng)正確率趨近0%或100%時(shí),則優(yōu)先采用百分比偏差法。這種自適應(yīng)機(jī)制通過數(shù)學(xué)公式精確控制兩種評(píng)分方式的混合比例,確保評(píng)價(jià)標(biāo)準(zhǔn)始終與問題難度相匹配。
實(shí)驗(yàn)驗(yàn)證環(huán)節(jié),研究團(tuán)隊(duì)選用Qwen2.5-VL-7B多模態(tài)大語言模型,在幾何推理和情感識(shí)別兩個(gè)不同領(lǐng)域展開測(cè)試。幾何任務(wù)要求模型分析圖形計(jì)算答案,情感任務(wù)則需判斷圖像中的情緒類別。結(jié)果顯示,MAPO訓(xùn)練使幾何任務(wù)準(zhǔn)確率從51.91%提升至54.41%,情感任務(wù)準(zhǔn)確率從77.20%提升至77.86%。更重要的是,新方法顯著增強(qiáng)了模型處理未知問題的泛化能力。
理論分析表明,MAPO的評(píng)分權(quán)重分配符合認(rèn)知科學(xué)規(guī)律。該方法自動(dòng)為困難問題分配更高學(xué)習(xí)權(quán)重,為簡(jiǎn)單問題分配較低權(quán)重,這種"難者重教,易者輕訓(xùn)"的策略與人類教育中的因材施教原則高度契合。數(shù)學(xué)推導(dǎo)證實(shí),該框架在收斂性和穩(wěn)定性方面具有顯著優(yōu)勢(shì)。
這項(xiàng)創(chuàng)新具有雙重價(jià)值:技術(shù)層面,MAPO無需改造現(xiàn)有模型架構(gòu)或增加計(jì)算資源,可無縫集成至現(xiàn)有訓(xùn)練流程;理念層面,其"自適應(yīng)學(xué)習(xí)"思想為AI發(fā)展開辟新路徑。研究團(tuán)隊(duì)在數(shù)學(xué)和情感兩個(gè)完全不同領(lǐng)域的成功驗(yàn)證,證明該方法具有廣泛適用性。
值得注意的是,MAPO的設(shè)計(jì)理念折射出人工智能向人類學(xué)習(xí)模式的演進(jìn)趨勢(shì)。人類在學(xué)習(xí)過程中會(huì)自然根據(jù)任務(wù)難度調(diào)整策略,而MAPO首次使AI系統(tǒng)具備這種動(dòng)態(tài)調(diào)節(jié)能力。不過研究也指出,當(dāng)前成果主要基于中小規(guī)模實(shí)驗(yàn),未來需在更大模型和數(shù)據(jù)集上驗(yàn)證;同時(shí),軌跡確定性判斷機(jī)制和跨領(lǐng)域擴(kuò)展性仍有優(yōu)化空間。











