日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

昆侖萬維發布Skywork-Reward-V2獎勵模型,全面奪魁七大主流評測榜單

   時間:2025-07-04 10:51:09 來源:ITBEAR編輯:快訊團隊 IP:北京 發表評論無障礙通道

昆侖萬維在人工智能領域再度發力,于近期正式推出了其第二代獎勵模型系列——Skywork-Reward-V2。這一系列共涵蓋了8個不同規模的模型,參數量從6億至80億不等,均基于不同的基座模型構建。令人矚目的是,Skywork-Reward-V2系列一經問世,便迅速在七大主流獎勵模型評測中脫穎而出,全面奪得榜首,成為開源獎勵模型領域的新星。

獎勵模型在強化學習從人類反饋(RLHF)的過程中扮演著核心角色。為了打造這一全新系列的獎勵模型,昆侖萬維精心構建了一個包含4000萬對偏好對比的混合數據集Skywork-SynPref-40M。在數據處理策略上,團隊創新性地采用了人機協同的兩階段流程,巧妙地將人工標注的高質量與模型的大規模處理能力相結合。在第一階段,團隊首先構建了一個初始的、未經驗證的偏好池,并借助大語言模型生成輔助屬性。隨后,人工標注者依據嚴格的協議,借助外部工具和大語言模型,對部分數據進行精細審核,從而構建出一個小規模但高質量的金標準數據集。以此為引導,結合大語言模型,團隊進一步生成了高質量的銀標準數據,并通過多輪迭代不斷優化。進入第二階段,團隊轉向自動化的大規模數據擴展,利用訓練完成的獎勵模型執行一致性過濾,既減輕了人工標注的負擔,又實現了偏好數據規模與質量的完美平衡。

基于這一優質的混合偏好數據,Skywork-Reward-V2系列展現出了廣泛的適用性和卓越的能力。它不僅在人類偏好的通用對齊、客觀正確性、安全性、風格偏差抵抗能力以及best-of-N擴展能力等多個維度上表現出色,還在Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等七大主流獎勵模型評估基準上全面達到了當前最優水平。即便是系列中最小的模型Skywork-Reward-V2-Qwen3-0.6B,其整體性能也幾乎達到了上一代最強模型的平均水平,而Skywork-Reward-V2-Qwen3-1.7B更是超越了當前開源獎勵模型的最高水平。最大規模的模型Skywork-Reward-V2-Llama-3.1-8B在所有主流基準測試中均全面超越,成為了當前整體表現最優的開源獎勵模型。

Skywork-Reward-V2系列還具備廣泛覆蓋多維人類偏好的能力。在通用偏好評估基準上,它優于多個參數更大的模型以及最新的生成型獎勵模型;在客觀正確性評估方面,它在知識密集型任務中展現出了突出的表現;在多項高級能力評估中,包括Best-of-N任務、偏見抵抗能力測試、復雜指令理解以及真實性判斷等,均取得了領先的成績,充分展現了其出色的泛化能力與實用性。

數據篩選流程的高度擴展性也顯著提升了獎勵模型的性能。經過精細篩選和過濾的偏好數據,在多輪迭代訓練中能夠持續有效地提升模型的整體性能,特別是在第二階段的全自動數據擴展中表現尤為顯著。早期版本的實驗結果顯示,僅需使用1.8%的高質量數據訓練8B規模的模型,其性能就能超越當前的70B級最高水平獎勵模型,這充分印證了Skywork-SynPref數據集在規模和質量上的顯著優勢。

對于感興趣的研究人員和開發者來說,可以通過以下鏈接獲取更多關于Skywork-Reward-V2系列的信息和資源:HuggingFace地址為https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84,GitHub地址為https://github.com/SkyworkAI/Skywork-Reward-V2。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 博爱县| 江口县| 克拉玛依市| 绥江县| 北海市| 独山县| 五原县| 海安县| 军事| 崇仁县| 灵宝市| 苏州市| 湖北省| 阿勒泰市| 郎溪县| 苗栗县| 枣阳市| 武邑县| 台中县| 双江| 玉屏| 甘谷县| 大安市| 梁平县| 定州市| 安仁县| 肃宁县| 错那县| 福清市| 昔阳县| 长宁区| 新田县| 莫力| 苏尼特左旗| 高尔夫| 长治县| 柘荣县| 顺义区| 金秀| 永寿县| 双柏县|