當大型語言模型處理復雜問題時,常面臨一個關鍵抉擇:是廣泛嘗試多種解法(探索),還是依賴已有經(jīng)驗(利用)?傳統(tǒng)認知中,這兩者如同天平兩端,只能選擇其一。但清華大學深圳國際研究生院聯(lián)合加州大學洛杉磯分校、深圳技術大學的研究團隊,通過一項創(chuàng)新研究顛覆了這一觀念。他們發(fā)現(xiàn),在模型內部的深層語義空間中,探索與利用并非對立,而是可以協(xié)同增強。該成果以論文形式發(fā)表于預印本平臺arXiv(編號:arXiv:2509.23808v2),為AI推理能力提升開辟了新路徑。
研究團隊將視角從“輸出詞匯”轉向“思維過程”,聚焦模型處理問題時的隱藏狀態(tài)——這些未被直接觀察的語義表征,如同人類思考時未說出口的想法。通過引入“有效排序”這一數(shù)學工具,他們量化了模型在語義空間中的探索行為。與傳統(tǒng)矩陣排序僅統(tǒng)計維度數(shù)量不同,有效排序能分析維度的“質量分布”,就像評估探險路線時不僅看數(shù)量,還要看路線是否均衡利用。
基于有效排序,研究團隊進一步提出動態(tài)指標:有效排序速度衡量信息獲取效率,反映利用能力;有效排序加速度則捕捉信息獲取速度的變化趨勢。正值表示思維活躍度增加,負值意味著推理趨于停滯。實驗發(fā)現(xiàn),正確推理路徑中,有效排序加速度始終保持較高值,而錯誤路徑往往同時出現(xiàn)高探索和高利用指標,表明過度探索與過度信息獲取可能導致推理偏離正確方向。
這一發(fā)現(xiàn)徹底改變了傳統(tǒng)訓練方法的設計思路。研究團隊開發(fā)的VERL(速度利用排序學習)方法,通過實時監(jiān)控隱藏狀態(tài)的動態(tài)演化,利用有效排序加速度作為“智能調度器”。當模型可能過度自信時,系統(tǒng)增強探索激勵;當推理可能停滯時,則加強利用獎勵。這種雙通道激勵機制如同為AI安裝了雙引擎,既能預防錯誤,又能鞏固有效推理。
VERL的創(chuàng)新不僅在于機制設計,更在于其穩(wěn)定性保障。由于有效排序加速度具有理論上的O(1)增長穩(wěn)定性,它為訓練提供了可靠的指導信號。實驗中,VERL在多種語言模型和數(shù)學推理基準測試中均表現(xiàn)出色。以Llama-3.2-3B-Instruct模型為例,在AIME24數(shù)據(jù)集上,應用VERL后準確率從3.3%提升至13.3%;在高考2024數(shù)據(jù)集這一高難度測試中,準確率提升達21.4%。
在Pass@k測試中,VERL的優(yōu)勢更為突出。這類測試要求模型生成多個解答,只要有一個正確即算成功。VERL訓練的模型在某些數(shù)據(jù)集上,Pass@k的改進幅度超過Pass@1,直接證明了其在增強探索能力方面的有效性。消融實驗進一步驗證,僅使用探索或利用相關項均無法實現(xiàn)穩(wěn)定性能提升,只有兩者結合才能持續(xù)改進。
實際應用案例生動展示了VERL的優(yōu)勢。在涉及負數(shù)比較的數(shù)學問題中,傳統(tǒng)方法訓練的模型錯誤認為-1小于-13,而VERL訓練的模型能正確處理這類基礎概念。在房屋計數(shù)應用題中,傳統(tǒng)模型忽略約束條件,錯誤推斷每條街道只有10棟房屋;VERL模型則正確理解約束,得出每條街道20棟房屋的結論。在微分方程求解中,傳統(tǒng)模型常忽略“純指數(shù)”約束,給出包含多項式和三角函數(shù)的通解;VERL模型則嚴格遵循要求,只給出符合條件的指數(shù)解。
VERL的成功源于對模型內部表征動態(tài)的深入理解。傳統(tǒng)方法在詞匯層面觀察到的探索-利用權衡,在隱藏狀態(tài)層面幾乎消失。這是因為詞匯輸出是高度壓縮的結果,而隱藏狀態(tài)保留了更豐富的語義信息。在這個更豐富的表征空間中,模型有足夠“空間”同時進行探索和利用。有效排序加速度作為元控制信號,能前瞻性地調節(jié)推理過程,引導模型走向更健康的推理路徑。
這項研究不僅提出了有效的技術方法,更從根本上改變了對AI推理過程的理解。它挑戰(zhàn)了探索-利用權衡的傳統(tǒng)認知,開創(chuàng)了基于語義表征動態(tài)性進行模型優(yōu)化的新范式。通過多尺度分析,研究團隊獲得了單一尺度分析無法提供的深層洞察,為AI系統(tǒng)的改進開辟了全新方向。VERL代表的“質量提升”型改進路徑,在當前AI發(fā)展面臨資源和環(huán)境約束的背景下,具有特殊意義。
Q&A
Q1:VERL方法與傳統(tǒng)強化學習方法的核心差異是什么?
A:傳統(tǒng)方法基于詞匯層面分析,認為探索和利用只能二選一;VERL則深入語義表征空間,發(fā)現(xiàn)兩者可解耦,并通過有效排序及其導數(shù)同時增強這兩種能力,如同為AI配備智能雙引擎。
Q2:為何有效排序加速度能作為可靠的控制信號?
A:該指標具有O(1)增長穩(wěn)定性,不會因問題規(guī)模或序列長度變化而劇烈波動。正確推理路徑中,此指標往往保持較高值,而錯誤推理中表現(xiàn)不佳,因此可區(qū)分推理質量并指導訓練。
Q3:VERL方法的實際應用效果如何?
A:實驗顯示,VERL在多種數(shù)學推理任務中顯著提升性能,高考2024數(shù)據(jù)集上準確率提升達21.4%。更重要的是,它不僅提高準確率,還增強推理多樣性,使AI能使用更豐富的解題策略。











