在人工智能領(lǐng)域,大模型的算力需求與訓(xùn)練成本一直是制約行業(yè)發(fā)展的關(guān)鍵因素。然而,由前OpenAI首席技術(shù)官M(fèi)ira Murati主導(dǎo)的Thinking Machines Lab團(tuán)隊(duì),憑借一項(xiàng)名為“在線策略蒸餾”的創(chuàng)新技術(shù),為行業(yè)帶來了顛覆性變革。該技術(shù)通過優(yōu)化訓(xùn)練流程,使小規(guī)模模型在性能上逼近大型模型,同時(shí)大幅降低計(jì)算資源消耗,為中小企業(yè)和個(gè)人開發(fā)者打開了高性能AI的普及之門。
最新實(shí)驗(yàn)數(shù)據(jù)顯示,一個(gè)僅有80億參數(shù)的小模型,在經(jīng)過“在線策略蒸餾”方法訓(xùn)練后,其性能達(dá)到了320億參數(shù)大模型的70%。更令人矚目的是,這一成果的訓(xùn)練成本較傳統(tǒng)方法降低了90%,效率提升了50至100倍。以數(shù)學(xué)推理任務(wù)AIME'24為例,傳統(tǒng)強(qiáng)化學(xué)習(xí)方法需耗費(fèi)17,920個(gè)GPU小時(shí)才能達(dá)到68%的準(zhǔn)確率,而采用該技術(shù)的Qwen3-8B模型僅用150步訓(xùn)練便實(shí)現(xiàn)了70%的準(zhǔn)確率,計(jì)算開銷幾乎可以忽略不計(jì)。
“在線策略蒸餾”的核心優(yōu)勢在于其“每token密集反饋”機(jī)制。傳統(tǒng)強(qiáng)化學(xué)習(xí)僅在任務(wù)完成后給予模型稀疏獎(jiǎng)勵(lì),而該技術(shù)通過教師模型對學(xué)生生成的每個(gè)token進(jìn)行實(shí)時(shí)評分,提供連續(xù)且精準(zhǔn)的指導(dǎo)信號。這種機(jī)制不僅加速了模型的收斂速度,還有效避免了長序列訓(xùn)練中的“策略漂移”問題,使小模型在有限資源下也能穩(wěn)定輸出高質(zhì)量結(jié)果。
該技術(shù)還成功解決了AI模型在學(xué)習(xí)新知識時(shí)的“災(zāi)難性遺忘”難題。實(shí)驗(yàn)表明,某模型在微調(diào)后指令遵循能力從85%驟降至45%,而通過“在線策略蒸餾”的實(shí)時(shí)軌跡采樣與教師校正,模型在保留41%新知識的同時(shí),將原有能力迅速恢復(fù)至83%,遠(yuǎn)超傳統(tǒng)微調(diào)或離線蒸餾方法。這一特性使其特別適用于企業(yè)場景,模型可動態(tài)學(xué)習(xí)業(yè)務(wù)新規(guī)、產(chǎn)品文檔,而不丟失基礎(chǔ)對話、工具調(diào)用等核心能力,實(shí)現(xiàn)真正的“持續(xù)進(jìn)化”。
從技術(shù)實(shí)現(xiàn)來看,“在線策略蒸餾”的架構(gòu)極為簡潔,僅需四步閉環(huán):首先部署教師模型(如320億參數(shù)大模型)作為監(jiān)督源;其次由學(xué)生模型生成響應(yīng)軌跡;接著教師模型計(jì)算每個(gè)token的對數(shù)概率;最后以反向KL散度為損失函數(shù),優(yōu)化學(xué)生模型的參數(shù)。這一過程無需復(fù)雜的基礎(chǔ)設(shè)施,兼容現(xiàn)有蒸餾框架,即可實(shí)現(xiàn)“低成本高精度”的性能提升。研究指出,該技術(shù)可擴(kuò)展至代碼生成、多模態(tài)推理等任務(wù),為“教師-學(xué)生”協(xié)同訓(xùn)練開辟了新路徑。
作為OpenAI前首席技術(shù)官,Mira Murati將大模型訓(xùn)練的實(shí)戰(zhàn)經(jīng)驗(yàn)融入小模型生態(tài)構(gòu)建中。在AI安全與對齊日益重要的背景下,“在線策略蒸餾”不僅提升了訓(xùn)練效率,還通過可控的知識遷移增強(qiáng)了模型行為的可預(yù)測性。行業(yè)專家認(rèn)為,該技術(shù)將推動開源模型與邊緣AI的快速發(fā)展——當(dāng)80億參數(shù)模型能勝任320億參數(shù)模型的任務(wù)時(shí),手機(jī)、物聯(lián)網(wǎng)設(shè)備乃至本地服務(wù)器都將成為高性能AI的載體,智能技術(shù)正從“云端壟斷”走向“人人可及”。
這場由Murati引領(lǐng)的訓(xùn)練革命,正在改變AI領(lǐng)域的競爭格局。小模型通過技術(shù)革新實(shí)現(xiàn)“聰明”如大模型,標(biāo)志著智能技術(shù)民主化時(shí)代的開啟。隨著“在線策略蒸餾”技術(shù)的普及,高性能AI將不再局限于少數(shù)科技巨頭,而是成為更多企業(yè)和開發(fā)者觸手可及的工具。














