滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

清華深研院新突破：AI推理告別“非此即彼”，探索利用雙提升

時間：2025-10-22 22:17:27 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

當大型語言模型處理復雜問題時，常面臨一個關鍵抉擇：是廣泛嘗試多種解法（探索），還是依賴已有經(jīng)驗（利用）？傳統(tǒng)認知中，這兩者如同天平兩端，只能選擇其一。但清華大學深圳國際研究生院聯(lián)合加州大學洛杉磯分校、深圳技術大學的研究團隊，通過一項創(chuàng)新研究顛覆了這一觀念。他們發(fā)現(xiàn)，在模型內部的深層語義空間中，探索與利用并非對立，而是可以協(xié)同增強。該成果以論文形式發(fā)表于預印本平臺arXiv（編號：arXiv:2509.23808v2），為AI推理能力提升開辟了新路徑。

研究團隊將視角從“輸出詞匯”轉向“思維過程”，聚焦模型處理問題時的隱藏狀態(tài)——這些未被直接觀察的語義表征，如同人類思考時未說出口的想法。通過引入“有效排序”這一數(shù)學工具，他們量化了模型在語義空間中的探索行為。與傳統(tǒng)矩陣排序僅統(tǒng)計維度數(shù)量不同，有效排序能分析維度的“質量分布”，就像評估探險路線時不僅看數(shù)量，還要看路線是否均衡利用。

基于有效排序，研究團隊進一步提出動態(tài)指標：有效排序速度衡量信息獲取效率，反映利用能力；有效排序加速度則捕捉信息獲取速度的變化趨勢。正值表示思維活躍度增加，負值意味著推理趨于停滯。實驗發(fā)現(xiàn)，正確推理路徑中，有效排序加速度始終保持較高值，而錯誤路徑往往同時出現(xiàn)高探索和高利用指標，表明過度探索與過度信息獲取可能導致推理偏離正確方向。

這一發(fā)現(xiàn)徹底改變了傳統(tǒng)訓練方法的設計思路。研究團隊開發(fā)的VERL（速度利用排序學習）方法，通過實時監(jiān)控隱藏狀態(tài)的動態(tài)演化，利用有效排序加速度作為“智能調度器”。當模型可能過度自信時，系統(tǒng)增強探索激勵；當推理可能停滯時，則加強利用獎勵。這種雙通道激勵機制如同為AI安裝了雙引擎，既能預防錯誤，又能鞏固有效推理。

VERL的創(chuàng)新不僅在于機制設計，更在于其穩(wěn)定性保障。由于有效排序加速度具有理論上的O(1)增長穩(wěn)定性，它為訓練提供了可靠的指導信號。實驗中，VERL在多種語言模型和數(shù)學推理基準測試中均表現(xiàn)出色。以Llama-3.2-3B-Instruct模型為例，在AIME24數(shù)據(jù)集上，應用VERL后準確率從3.3%提升至13.3%；在高考2024數(shù)據(jù)集這一高難度測試中，準確率提升達21.4%。

在Pass@k測試中，VERL的優(yōu)勢更為突出。這類測試要求模型生成多個解答，只要有一個正確即算成功。VERL訓練的模型在某些數(shù)據(jù)集上，Pass@k的改進幅度超過Pass@1，直接證明了其在增強探索能力方面的有效性。消融實驗進一步驗證，僅使用探索或利用相關項均無法實現(xiàn)穩(wěn)定性能提升，只有兩者結合才能持續(xù)改進。

實際應用案例生動展示了VERL的優(yōu)勢。在涉及負數(shù)比較的數(shù)學問題中，傳統(tǒng)方法訓練的模型錯誤認為-1小于-13，而VERL訓練的模型能正確處理這類基礎概念。在房屋計數(shù)應用題中，傳統(tǒng)模型忽略約束條件，錯誤推斷每條街道只有10棟房屋；VERL模型則正確理解約束，得出每條街道20棟房屋的結論。在微分方程求解中，傳統(tǒng)模型常忽略“純指數(shù)”約束，給出包含多項式和三角函數(shù)的通解；VERL模型則嚴格遵循要求，只給出符合條件的指數(shù)解。

VERL的成功源于對模型內部表征動態(tài)的深入理解。傳統(tǒng)方法在詞匯層面觀察到的探索-利用權衡，在隱藏狀態(tài)層面幾乎消失。這是因為詞匯輸出是高度壓縮的結果，而隱藏狀態(tài)保留了更豐富的語義信息。在這個更豐富的表征空間中，模型有足夠“空間”同時進行探索和利用。有效排序加速度作為元控制信號，能前瞻性地調節(jié)推理過程，引導模型走向更健康的推理路徑。

這項研究不僅提出了有效的技術方法，更從根本上改變了對AI推理過程的理解。它挑戰(zhàn)了探索-利用權衡的傳統(tǒng)認知，開創(chuàng)了基于語義表征動態(tài)性進行模型優(yōu)化的新范式。通過多尺度分析，研究團隊獲得了單一尺度分析無法提供的深層洞察，為AI系統(tǒng)的改進開辟了全新方向。VERL代表的“質量提升”型改進路徑，在當前AI發(fā)展面臨資源和環(huán)境約束的背景下，具有特殊意義。

Q&A

Q1：VERL方法與傳統(tǒng)強化學習方法的核心差異是什么？

A：傳統(tǒng)方法基于詞匯層面分析，認為探索和利用只能二選一；VERL則深入語義表征空間，發(fā)現(xiàn)兩者可解耦，并通過有效排序及其導數(shù)同時增強這兩種能力，如同為AI配備智能雙引擎。

Q2：為何有效排序加速度能作為可靠的控制信號？

A：該指標具有O(1)增長穩(wěn)定性，不會因問題規(guī)模或序列長度變化而劇烈波動。正確推理路徑中，此指標往往保持較高值，而錯誤推理中表現(xiàn)不佳，因此可區(qū)分推理質量并指導訓練。

Q3：VERL方法的實際應用效果如何？

A：實驗顯示，VERL在多種數(shù)學推理任務中顯著提升性能，高考2024數(shù)據(jù)集上準確率提升達21.4%。更重要的是，它不僅提高準確率，還增強推理多樣性，使AI能使用更豐富的解題策略。

11-14

六名航天員“超長待機”12天，天宮空間站如何以“三重保險”化解216升水挑戰(zhàn)？

11-14

1600光年外“幽靈”現(xiàn)身：蓋亞BH1，休眠黑洞藏身銀河系“后院”

11-14

鐵銹中的“生物指紋”：宇宙中生命印記或藏于火星與冰冷衛(wèi)星

11-13

中國飛船遇空間碎片撞擊仍能安全返航，預案充分保障航天任務萬無一失

11-13

貨拉拉關愛司機健康：400余家門店設“健康角”，多舉措守護司機安康

11-13

香農芯創(chuàng)股價創(chuàng)新高時第三大股東減持，年內漲幅超5倍成大牛股

11-13

深圳以ISO 37302標準為翼，推動企業(yè)合規(guī)管理邁向新高度

11-13

滬指刷新十年新高至4030.40點！多因素共振助力A股強勢上揚

11-13

商務部回應安世半導體問題磋商：望荷方展現(xiàn)誠意，速提方案恢復產業(yè)鏈穩(wěn)定

11-13

從短期“帶貨”到長期“價值共生”，VTN與胡靜開啟明星合作新征程

11-13

科蒂開云對簿公堂古馳美妝授權歸屬成焦點高端美妝格局或生變

11-13

B站2025年Q3業(yè)績亮眼：凈利潤大增連續(xù)兩季度盈利引關注

11-13

輿論風暴后西貝如何破局？從閉店潮到擴張計劃，品牌逆襲之路揭秘

11-13

百利天恒港股IPO臨門剎車：定價折讓少發(fā)行量小，公司正評估新時間表

11-13

點擊查看更多 +

全站最新

特斯拉上海超級工廠再創(chuàng)新績第500萬個電池包下線彰顯強勁實力

百度文庫海外上線「Oreate」平臺，百萬用戶青睞，多模態(tài)創(chuàng)作功能全方位覆蓋需求

9月全球新能源汽車銷量榜：特斯拉兩車領跑，比亞迪6款、吉利1款入圍前十

小度發(fā)布超能小度，多款新品亮相，開啟智能硬件新體驗篇章

小米YU7 20合1壓鑄鋁三角梁獲國際最佳結構獎，引領汽車安全輕量化新方向

小米YU7獲國際壓鑄大賽最佳結構獎：一體化壓鑄技術引領電動車安全新趨勢

熱門內容

本欄最新

全新坦克400多版本上市，潮酷設計引都市青年追捧，開啟多元越野生活

全新坦克400正式登場，24.98萬起售，四款動力滿足多元需求！

起亞Telluride測試車披"藝術偽裝"亮相，創(chuàng)意彩蛋致敬命名地

30萬級6座SUV新角逐：2026款騰勢N8L與理想L8，誰更合家庭心意？

遠程湘潭基地智能制造賦能超級VAN，推動新能源商用車產業(yè)高質量發(fā)展

每日一書

本網(wǎng)站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

清華深研院新突破：AI推理告別“非此即彼”，探索利用雙提升

日本精品一区二区三区高清久久