滾動資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

南加大團隊新探索：以“長度感知”策略解鎖AI數(shù)學(xué)訓(xùn)練新效能

時間：2025-10-31 03:54:19 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

在人工智能領(lǐng)域，數(shù)學(xué)推理能力一直是衡量模型性能的重要指標(biāo)。近期，一項由多所高校聯(lián)合開展的研究提出了一種創(chuàng)新方法，通過分析模型回答長度來優(yōu)化訓(xùn)練過程，顯著提升了AI在數(shù)學(xué)問題上的表現(xiàn)。這項研究為AI訓(xùn)練提供了新思路，引發(fā)了學(xué)界的廣泛關(guān)注。

研究團隊發(fā)現(xiàn)，AI在解答數(shù)學(xué)題時，回答長度往往能反映其解題狀態(tài)。當(dāng)模型對問題把握準(zhǔn)確時，通常會給出簡潔的答案；而面對不確定的情況時，回答則會變得冗長復(fù)雜。這種模式與人類解題時的表現(xiàn)頗為相似——自信時直截了當(dāng)，困惑時反復(fù)推敲。基于這一觀察，研究人員開發(fā)了名為"長度感知動態(tài)采樣策略"（LSPO）的新方法。

LSPO的核心在于智能篩選訓(xùn)練數(shù)據(jù)。該方法會優(yōu)先選擇兩類回答進行重點訓(xùn)練：一類是特別簡短的回答，這類回答通常代表模型的最佳表現(xiàn)；另一類是特別冗長的回答，這類回答則反映了模型面臨的挑戰(zhàn)。對于中等長度的回答，系統(tǒng)會降低其訓(xùn)練權(quán)重。這種策略類似于教育中的因材施教——既強化優(yōu)勢，又攻克弱點。

技術(shù)實現(xiàn)上，LSPO采用了動態(tài)閾值機制。系統(tǒng)首先會為每個問題生成多個回答，并計算平均長度。隨后，根據(jù)長度分布設(shè)定兩個篩選閾值：一個用于識別最短30%的回答，另一個用于識別長度在65%-95%區(qū)間的回答。研究人員特別指出，極度冗長的回答（最長5%）往往質(zhì)量較差，可能包含循環(huán)思維或偏離主題的內(nèi)容，因此不被納入重點訓(xùn)練。

實驗結(jié)果顯示，LSPO方法在所有測試組合中都帶來了性能提升。以Qwen-2.5-Math-7B模型為例，在使用GRPO基礎(chǔ)算法時，普通訓(xùn)練方法的平均得分為37.5%，而采用LSPO后提升至38.7%。這種提升在不同基礎(chǔ)算法上均保持一致，證明了方法的普適性。研究人員強調(diào)，雖然單步訓(xùn)練時間增加了約60%，但由于訓(xùn)練效率提高，達到相同性能水平的總時間反而減少。

深入分析表明，LSPO的成功源于其對回答長度的綜合利用。消融實驗顯示，僅選擇短回答或長回答的訓(xùn)練效果都不理想，只有同時關(guān)注兩個極端，模型才能獲得全面的學(xué)習(xí)體驗。動態(tài)百分比閾值比固定數(shù)值閾值更有效，因為前者能隨模型能力提升自動調(diào)整篩選標(biāo)準(zhǔn)。

該方法也面臨一定局限性。首先，它高度依賴回答長度信息，若未來訓(xùn)練方法不再關(guān)注長度變化，適用性可能受限。其次，LSPO需要較大的批次規(guī)模來構(gòu)建可靠的長度分布，這對計算資源有限的團隊構(gòu)成挑戰(zhàn)。研究人員提出了多個改進方向，包括預(yù)先預(yù)測回答長度以降低計算成本，以及根據(jù)訓(xùn)練進展動態(tài)調(diào)整閾值。

從應(yīng)用前景看，LSPO具有顯著的實際價值。它不需要修改底層模型架構(gòu)，只需在訓(xùn)練階段增加長度感知過濾器，因此易于整合到現(xiàn)有流程中。對于開發(fā)數(shù)學(xué)AI助手的企業(yè)而言，該方法可提升模型在復(fù)雜問題上的表現(xiàn)，助力開發(fā)更可靠的在線輔導(dǎo)系統(tǒng)和自動化批改工具。

在教育領(lǐng)域，LSPO的理念同樣具有啟發(fā)意義。教師可通過分析學(xué)生答題的詳細程度來判斷其掌握情況——過于簡短的回答可能反映理解不深，過于冗長的回答則可能顯示思路不清。基于這種觀察，教師可提供更有針對性的指導(dǎo)，提高教學(xué)效率。

這項研究不僅在技術(shù)上取得了突破，更重要的是為AI訓(xùn)練提供了新范式。隨著數(shù)據(jù)量的爆炸式增長，如何從海量信息中篩選有價值的訓(xùn)練樣本成為關(guān)鍵挑戰(zhàn)。LSPO展示了利用數(shù)據(jù)內(nèi)在特征指導(dǎo)篩選的可能性，這種思路可能影響整個機器學(xué)習(xí)領(lǐng)域的發(fā)展方向。

Q&A

Q1：LSPO方法的核心原理是什么？

A：LSPO通過分析AI回答數(shù)學(xué)題的長度來篩選訓(xùn)練數(shù)據(jù)。它優(yōu)先選擇回答特別短（模型把握準(zhǔn)確）和特別長（模型遇到挑戰(zhàn)）的樣本進行重點訓(xùn)練，忽略中等長度的回答。這種策略旨在強化模型優(yōu)勢，同時攻克薄弱環(huán)節(jié)。

Q2：為什么回答長度能作為訓(xùn)練價值的指標(biāo)？

A：短回答通常代表模型對問題有信心，能直接找到解題關(guān)鍵，是理想的學(xué)習(xí)樣本。長回答則反映模型在復(fù)雜問題上的思考過程，包含豐富的學(xué)習(xí)信息。中等長度的回答往往處于模糊狀態(tài)，對提升模型能力的貢獻相對有限。

Q3：LSPO方法的實際應(yīng)用效果如何？

A：實驗表明，采用LSPO訓(xùn)練的AI模型在所有測試中均表現(xiàn)更優(yōu)。雖然單步訓(xùn)練時間增加，但總訓(xùn)練效率提高，達到相同性能水平所需的時間減少。該方法可應(yīng)用于開發(fā)數(shù)學(xué)AI助手、在線輔導(dǎo)系統(tǒng)等，對AI訓(xùn)練領(lǐng)域具有廣泛啟發(fā)意義。

10-31

云天勵飛前三季度營收大增97% 現(xiàn)金流穩(wěn)健加速構(gòu)建國產(chǎn)AI芯片生態(tài)平臺

10-31

人形機器人價格高昂難普及？智元牽頭組建租賃聯(lián)盟探索“按需即用”新路徑

10-31

從AI營銷到AI版LinkedIn，指數(shù)引力如何借AI之力重塑商業(yè)關(guān)系網(wǎng)絡(luò)？

10-31

杭叉集團CeMAT ASIA 2025展首發(fā)X1物流人形機器人，開啟全場景智能物流新篇章

在10月28日至31日舉行的上海CeMAT ASIA 2025亞洲國際物流展上，杭叉集團以“智慧物流杭叉領(lǐng)創(chuàng)”為主題，全球首次發(fā)布杭叉X1系列物流人形機器人，標(biāo)志著公司完成了從傳統(tǒng)工業(yè)車輛制造商向全場景智能…

10-31

貴州翰凱斯：貴陽研發(fā)領(lǐng)航湖州量產(chǎn)助力無人駕駛產(chǎn)品行銷30國

10月28日，扎根于貴陽高新區(qū)的貴州翰凱斯智能技術(shù)有限公司傳來喜訊——其位于浙江湖州的數(shù)字制造工廠正式投產(chǎn)。作為翰凱斯在國內(nèi)的首個量產(chǎn)基地，該工廠的落地標(biāo)志著企業(yè)完成了從“貴陽研發(fā)”到“全球制造”的戰(zhàn)略關(guān)鍵跨…

10-31

MiniMax以M2破局：在AI深水區(qū)選對路徑，以定力向終局之戰(zhàn)進發(fā)

2023年，ChatGPT席卷全球，掀起AI風(fēng)口，一時間，國內(nèi)涌現(xiàn)了一批大模型公司，大廠也在研究大模型，拉開了“百模大戰(zhàn)”帷幕。就是這次發(fā)布會，讓公眾看到了平日低調(diào)的MiniMax與全球用戶日均30億次交互…

10-31

數(shù)智賦能：主流媒體“智媒+”生態(tài)中AI的價值探索與實踐

10月30日，在2025(第十屆)黨媒網(wǎng)站發(fā)展論壇上，6位嘉賓圍繞“數(shù)智驅(qū)動拓展‘智媒+’生態(tài)”主題，結(jié)合媒體實踐分享技術(shù)應(yīng)用成果、解析風(fēng)險防范路徑，就主流媒體如何使用AI創(chuàng)造價值進行分享。中國青年網(wǎng)副總編…

10-31

百度智能云雙11推免費AI營銷權(quán)益，全鏈路方案助力企業(yè)降本增效拓客群

10-31

AI可穿戴設(shè)備：從“小物件”到健康管理“主力軍”的蛻變之路

10-31

MiniMax：在AI深水區(qū)以定力與遠見，探尋終局之戰(zhàn)的破局密鑰

10-31

靈心巧手全資在深設(shè)靈心伙伴科技公司，3000萬注冊資本開啟新征程

10-30

文遠知行韓旭：L5級自動駕駛或迎突破，10年內(nèi)將媲美頂尖人類司機

10-30

英偉達AMD前高管創(chuàng)業(yè)，國產(chǎn)GPU新勢力沖刺上市，搶灘百億市場

10-30

百度袁佛玉：AI驅(qū)動超級周期開啟助力產(chǎn)業(yè)落地共迎智能生產(chǎn)力新機遇

10-30

點擊查看更多 +

全站最新

小米高管徐潔云發(fā)聲：理想MEGA設(shè)計獨特，超大空間便捷補能是好車

?交付周期長、價格波動大、安全爭議多，小米汽車二手市場遇冷何解？?

?小米YU7等三款車五環(huán)續(xù)航測試遭疑，汽車之家詳述測試細節(jié)并表態(tài)將深化測試?

雷軍“定價調(diào)整”背后：存儲漲價潮下，國產(chǎn)存儲崛起窗口已至

小米YU7等三車?yán)m(xù)航測試結(jié)果遭疑，汽車之家從多維度回應(yīng)測試情況

汽車之家回應(yīng)冬測質(zhì)疑：京津冀低溫續(xù)航測試還原真實場景，小米YU7續(xù)航奪冠

熱門內(nèi)容

本欄最新

Grok家族再添新成員！新AI伴侶Mika正式亮相已有五位伙伴同行

頭部985高校AI大模型算法博士：學(xué)術(shù)之路閃耀，收入表現(xiàn)亮眼

小米與北大聯(lián)合論文現(xiàn)“天才少女”羅福莉之名，其職業(yè)軌跡與千萬年薪傳聞引關(guān)注

2025百度世界大會11月13日啟幕，年度盛會共探技術(shù)新趨勢

截至10月11日，上海累計完成119款生成式AI服務(wù)登記，新增5款

截至2025年10月9日北京市新增3款生成式AI服務(wù) 累計備案達161款

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

南加大團隊新探索：以“長度感知”策略解鎖AI數(shù)學(xué)訓(xùn)練新效能

日本精品一区二区三区高清久久