昆侖萬維在人工智能領域再度發力,于近期正式推出了其第二代獎勵模型系列——Skywork-Reward-V2。這一系列共涵蓋了8個不同規模的模型,參數量從6億至80億不等,均基于不同的基座模型構建。令人矚目的是,Skywork-Reward-V2系列一經問世,便迅速在七大主流獎勵模型評測中脫穎而出,全面奪得榜首,成為開源獎勵模型領域的新星。
獎勵模型在強化學習從人類反饋(RLHF)的過程中扮演著核心角色。為了打造這一全新系列的獎勵模型,昆侖萬維精心構建了一個包含4000萬對偏好對比的混合數據集Skywork-SynPref-40M。在數據處理策略上,團隊創新性地采用了人機協同的兩階段流程,巧妙地將人工標注的高質量與模型的大規模處理能力相結合。在第一階段,團隊首先構建了一個初始的、未經驗證的偏好池,并借助大語言模型生成輔助屬性。隨后,人工標注者依據嚴格的協議,借助外部工具和大語言模型,對部分數據進行精細審核,從而構建出一個小規模但高質量的金標準數據集。以此為引導,結合大語言模型,團隊進一步生成了高質量的銀標準數據,并通過多輪迭代不斷優化。進入第二階段,團隊轉向自動化的大規模數據擴展,利用訓練完成的獎勵模型執行一致性過濾,既減輕了人工標注的負擔,又實現了偏好數據規模與質量的完美平衡。
基于這一優質的混合偏好數據,Skywork-Reward-V2系列展現出了廣泛的適用性和卓越的能力。它不僅在人類偏好的通用對齊、客觀正確性、安全性、風格偏差抵抗能力以及best-of-N擴展能力等多個維度上表現出色,還在Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等七大主流獎勵模型評估基準上全面達到了當前最優水平。即便是系列中最小的模型Skywork-Reward-V2-Qwen3-0.6B,其整體性能也幾乎達到了上一代最強模型的平均水平,而Skywork-Reward-V2-Qwen3-1.7B更是超越了當前開源獎勵模型的最高水平。最大規模的模型Skywork-Reward-V2-Llama-3.1-8B在所有主流基準測試中均全面超越,成為了當前整體表現最優的開源獎勵模型。
Skywork-Reward-V2系列還具備廣泛覆蓋多維人類偏好的能力。在通用偏好評估基準上,它優于多個參數更大的模型以及最新的生成型獎勵模型;在客觀正確性評估方面,它在知識密集型任務中展現出了突出的表現;在多項高級能力評估中,包括Best-of-N任務、偏見抵抗能力測試、復雜指令理解以及真實性判斷等,均取得了領先的成績,充分展現了其出色的泛化能力與實用性。
數據篩選流程的高度擴展性也顯著提升了獎勵模型的性能。經過精細篩選和過濾的偏好數據,在多輪迭代訓練中能夠持續有效地提升模型的整體性能,特別是在第二階段的全自動數據擴展中表現尤為顯著。早期版本的實驗結果顯示,僅需使用1.8%的高質量數據訓練8B規模的模型,其性能就能超越當前的70B級最高水平獎勵模型,這充分印證了Skywork-SynPref數據集在規模和質量上的顯著優勢。
對于感興趣的研究人員和開發者來說,可以通過以下鏈接獲取更多關于Skywork-Reward-V2系列的信息和資源:HuggingFace地址為https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84,GitHub地址為https://github.com/SkyworkAI/Skywork-Reward-V2。