在人工智能領域,一項新的突破性研究正引發廣泛關注。谷歌DeepMind團隊攜手約翰·開普勒林茨大學的LIT AI實驗室,共同探索如何通過強化學習微調(RLFT)技術,增強語言模型的決策制定能力。這一研究的核心在于,通過一系列精心設計的思維鏈訓練,解決了模型在決策執行上的短板。
隨著大數據技術的飛速發展,現代語言模型在處理文本信息方面展現出了驚人的能力,甚至能在復雜交互環境中基于知識做出決策。然而,一個顯著的問題是,這些模型雖然能夠推導出正確的策略,但在實際操作中卻常常力不從心,難以將理論轉化為實踐。模型還傾向于選擇短期高回報的選項,而小模型則因頻率偏見而頻繁重復常見動作,限制了其廣泛應用。
針對這一問題,DeepMind團隊提出了創新的解決方案——強化學習微調技術。該技術利用模型自生成的思維鏈作為訓練信號,通過評估每個推理步驟對應的行動獎勵,引導模型選擇既邏輯自洽又有效的行動方案。這一方法不僅解決了模型推理與行動之間的脫節問題,還顯著提升了模型的決策執行能力。
在實施過程中,模型會根據輸入指令、歷史行動及獎勵信息,生成包含推理過程和動作的序列。通過蒙特卡洛基線評估和廣義優勢估計技術,模型能夠不斷優化其決策過程。若采取無效動作,系統將觸發懲罰機制,確保模型在選擇行動時更加謹慎。同時,獎勵塑造技術的引入,既保證了輸出的規范性,又為模型保留了足夠的探索空間。
為了驗證這一技術的有效性,研究團隊進行了多項實驗。在多臂老虎機模型中,2B參數模型在10臂測試中動作覆蓋率提升了12個百分點,在20臂測試中頻次偏見率從70%降至35%。在井字棋實驗中,模型與隨機對手對戰時的勝率提升了5倍,對陣最優蒙特卡洛樹搜索代理時的平均回報也實現了顯著提升。27B大模型在生成正確推理方面的概率高達87%,而未經過微調的模型僅有21%能夠執行最優動作。這些實驗結果充分證明了強化學習微調技術在縮小推理與行動差距方面的卓越表現。