在人工智能技術迅猛發展的當下,如何確保大語言模型輸出內容符合人類價值觀,已成為學界與產業界共同關注的核心議題。傳統微調方法依賴海量數據且存在效率低下、引入新風險等問題,而近期對模型內部激活值的直接編輯技術,為推理時對齊提供了新思路。然而,現有技術多聚焦于句子級編輯,存在方向偏差與編輯強度僵化兩大缺陷。
針對這一技術瓶頸,某高校研究團隊提出名為Token-Aware Editing(TAE)的創新方法,通過精細化token級干預實現更精準的模型對齊。該方法突破傳統技術框架,在無需額外訓練的情況下,可直接應用于對話系統、內容審核及偏見緩解等場景。實驗數據顯示,TAE在TruthfulQA真實性評估中,使LLaMA-3-8B模型的True*Info得分提升至87.8%,較此前最優方法提升14.6個百分點,較原始基線提升25.8個百分點。
研究團隊指出,傳統句子級編輯技術存在兩大根本性問題。其一為方向偏差,僅依賴最后一個token的激活值代表全句語義,導致編輯方向準確性不足;其二為編輯強度僵化,對所有token采用統一干預力度,無法精準修正錯誤token。TAE方法通過構建token關系圖,利用互信息量化token間關聯性,形成多層次信息聚合網絡,從而生成更具代表性的激活表征。
該方法包含兩大核心模塊:Mutual Information-guided Graph Aggregation(MIG)與Misalignment-aware Adaptive Intervention(MAI)。MIG模塊通過構建token關系圖,融合全句語義信息生成增強激活表征,訓練探測頭精準識別對齊干預方向。MAI模塊則創新性地引入雙路錯位評估機制,從表示錯位與預測不確定性兩個維度量化token風險,動態調整干預強度,實現高風險token強干預、低風險token弱干預的差異化處理。
在毒性內容過濾實驗中,TAE使RealToxicPrompt數據集的毒性概率從基線0.41驟降至0.05,降幅達87.8%,顯著優于DESTEIN等專用去毒方法。在公平性評估方面,StereoSet數據集的刻板印象分數從64.8%降至50.3%,接近理想無偏見狀態。值得關注的是,該方法在不同規模模型(如Llama2-7B/13B、Alpaca-7B、Mistral-7B)中均表現出穩定增益,驗證了其跨模型適用性。
該研究成果已發表于國際頂級會議,其核心優勢在于實現從句子級到token級的精細化干預。相較于傳統方法需調整全句激活值,TAE通過token級自適應編輯,在保證輸出流暢性的同時,顯著提升內容真實性、降低有害性、緩解模型偏見。研究團隊透露,后續將探索TAE與監督微調(SFT)、強化學習人類反饋(RLHF)等訓練方法的協同應用,推動大模型安全技術向多維度、高效率方向發展。
完整技術細節可參考論文:https://openreview.net/pdf?id=43nuT3mODk