近期,國際科技界對阿里巴巴推出的Qwen2.5模型在數學推理能力上的表現展開了深入討論。一項最新研究報告指出,Qwen2.5在多項數學基準測試中展現出的卓越推理能力,可能并非真正基于推理,而是更多地依賴于對訓練數據的記憶。
研究的核心發現表明,當Qwen2.5面對未在訓練期間接觸過的“干凈”基準測試時,其性能顯著下滑。這一發現暗示,模型在之前測試中取得的良好成績,很可能是因為已經間接或直接接觸過這些數據。
為了驗證這一假設,研究團隊設計了一項獨特的實驗:他們僅向Qwen2.5-Math-7B模型展示了MATH500基準測試的前60%題目,要求其預測剩余的40%。結果出乎意料,Qwen2.5-Math-7B以54.6%的準確率成功補全了缺失部分,相比之下,Llama3.1-8B的準確率僅為3.8%。這一巨大差異強烈提示Qwen2.5在訓練過程中可能已“預習”過這些問題。
隨后,研究團隊使用LiveMathBench這一在Qwen2.5發布后創建的“干凈”基準測試進行評估。由于LiveMathBench的數據集在Qwen2.5訓練后才出現,因此模型不可能接觸過。在這一全新數據集上,Qwen2.5的表現急劇下滑,完成率幾乎為零,準確率也僅剩2%,與Llama模型的表現相當。
研究進一步指出,Qwen2.5可能在大型在線數據集上進行了預訓練,這些數據集中包含了基準問題及其解決方案,如GitHub上的代碼庫。因此,即使訓練過程中接收到錯誤的獎勵信號,模型也可能因事先接觸過這些數據而在MATH-500上表現優異。
為進一步探究這一問題,研究團隊還進行了其他實驗。當響應模板發生變化時,Qwen2.5在MATH-500上的性能大幅下降,而Llama-3.1-8B則幾乎不受影響。這一發現進一步支持了Qwen2.5對特定數據模式的依賴。
研究還強調了基準測試在評估AI模型中的重要性。受污染的基準測試可能導致對AI進展的誤解。因此,未來研究應依賴于干凈、未受污染的基準,并評估多個模型系列,以獲得更可靠的結果。
這一系列研究結果再次突顯了在大型語言模型中區分真實推理與記憶的難度,以及清晰、嚴謹的評估方法對于可靠AI研究的重要性。此前已有類似案例表明,基準測試可能被操縱,從而影響評估結果的準確性。