滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

昆侖萬維發布Skywork-Reward-V2獎勵模型，全面奪魁七大主流評測榜單

時間：2025-07-04 10:51:09 來源：ITBEAR編輯：快訊團隊 IP：北京 發表評論無障礙通道

昆侖萬維在人工智能領域再度發力，于近期正式推出了其第二代獎勵模型系列——Skywork-Reward-V2。這一系列共涵蓋了8個不同規模的模型，參數量從6億至80億不等，均基于不同的基座模型構建。令人矚目的是，Skywork-Reward-V2系列一經問世，便迅速在七大主流獎勵模型評測中脫穎而出，全面奪得榜首，成為開源獎勵模型領域的新星。

獎勵模型在強化學習從人類反饋（RLHF）的過程中扮演著核心角色。為了打造這一全新系列的獎勵模型，昆侖萬維精心構建了一個包含4000萬對偏好對比的混合數據集Skywork-SynPref-40M。在數據處理策略上，團隊創新性地采用了人機協同的兩階段流程，巧妙地將人工標注的高質量與模型的大規模處理能力相結合。在第一階段，團隊首先構建了一個初始的、未經驗證的偏好池，并借助大語言模型生成輔助屬性。隨后，人工標注者依據嚴格的協議，借助外部工具和大語言模型，對部分數據進行精細審核，從而構建出一個小規模但高質量的金標準數據集。以此為引導，結合大語言模型，團隊進一步生成了高質量的銀標準數據，并通過多輪迭代不斷優化。進入第二階段，團隊轉向自動化的大規模數據擴展，利用訓練完成的獎勵模型執行一致性過濾，既減輕了人工標注的負擔，又實現了偏好數據規模與質量的完美平衡。

基于這一優質的混合偏好數據，Skywork-Reward-V2系列展現出了廣泛的適用性和卓越的能力。它不僅在人類偏好的通用對齊、客觀正確性、安全性、風格偏差抵抗能力以及best-of-N擴展能力等多個維度上表現出色，還在Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等七大主流獎勵模型評估基準上全面達到了當前最優水平。即便是系列中最小的模型Skywork-Reward-V2-Qwen3-0.6B，其整體性能也幾乎達到了上一代最強模型的平均水平，而Skywork-Reward-V2-Qwen3-1.7B更是超越了當前開源獎勵模型的最高水平。最大規模的模型Skywork-Reward-V2-Llama-3.1-8B在所有主流基準測試中均全面超越，成為了當前整體表現最優的開源獎勵模型。

Skywork-Reward-V2系列還具備廣泛覆蓋多維人類偏好的能力。在通用偏好評估基準上，它優于多個參數更大的模型以及最新的生成型獎勵模型；在客觀正確性評估方面，它在知識密集型任務中展現出了突出的表現；在多項高級能力評估中，包括Best-of-N任務、偏見抵抗能力測試、復雜指令理解以及真實性判斷等，均取得了領先的成績，充分展現了其出色的泛化能力與實用性。

數據篩選流程的高度擴展性也顯著提升了獎勵模型的性能。經過精細篩選和過濾的偏好數據，在多輪迭代訓練中能夠持續有效地提升模型的整體性能，特別是在第二階段的全自動數據擴展中表現尤為顯著。早期版本的實驗結果顯示，僅需使用1.8%的高質量數據訓練8B規模的模型，其性能就能超越當前的70B級最高水平獎勵模型，這充分印證了Skywork-SynPref數據集在規模和質量上的顯著優勢。

對于感興趣的研究人員和開發者來說，可以通過以下鏈接獲取更多關于Skywork-Reward-V2系列的信息和資源：HuggingFace地址為https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84，GitHub地址為https://github.com/SkyworkAI/Skywork-Reward-V2。

舉報 0 收藏 0 打賞 0評論 0

07-04

MiniMax-M1登頂開源AI榜，技術實力彰顯，引領行業新風潮

07-04

英偉達股價攀升至新高，市值突破3.89萬億美元成全球科技新領袖

07-04

微軟年內二度大規模裁員，近9000崗位受影響

07-04

ABB推出三款新型機器人，瞄準中國中型企業自動化需求

IT之家 7 月 3 日消息，據路透社報道，瑞士工程巨頭 ABB周三宣布，將面向中國市場推出三款新型工廠機器人系列，瞄準對自動化需求日益增長的中國中型企業。根據國際機器人聯合會的數據，中國已成為全球最大的…

07-04

中國移動中興通訊聯手打造“聯創+”自智網絡實驗室，加速科技創新成果轉化

近日，中國移動通信集團有限公司與中興通訊股份有限公司在北京舉行“聯創+”自智網絡開放實驗室揭牌儀式。此舉旨在貫徹國家科技創新驅動發展戰略，加速自智網絡高階發展。中國移動副總經理李慧鏑強調，通信產業是推動社會…

07-04

榮耀Magic V5深度評測：極致輕薄下的性能與智能新高度

在性能上，榮耀Magic V5并沒有因為輕薄而向性能妥協，這恰好就是用戶的理想型。如果你想要擁有一部折疊屏手機雙持的話，那么榮耀Magic V5一定就是一個不錯的選擇，不僅輕薄，而且還沒有傳輸壁壘，想怎么傳…

07-04

智譜AI上海子公司增資近50倍，寰宇科技公司資本躍升至5億

07-04

優必選杭州布局，新設智行機器人公司，注冊資本高達5000萬！

07-04

歌爾股份杭州新設歌爾泰克，注冊資本達500萬引關注

07-04

中石油昆侖資本攜手山東未來機器人，共譜智能制造新篇章

07-04

AI賦能熱輻射超材料設計，批量創制方案突破傳統設計上限

金屬基復合材料全國重點實驗室、上海交通大學材料科學與工程學院、張江高等研究院未來材料創制中心教授周涵表示，熱輻射超材料的設計難點在于缺乏普適性方法，即缺乏多材料、多結構、多維度、多參數的全自動設計范式及通用方…

07-03

Fortinet連續第二年榮膺Gartner企業級WLAN魔力象限領導者

Fortinet 全面集成至 Fortinet Security Fabric 的企業級有線和無線局域網解決方案，為用戶打造經實踐檢驗、以人工智能驅動的安全平臺，全面融合網絡與安全性，助力用戶降低復雜性、緩…

07-03

外灘大會AI科創賽啟幕，探索生活變革、金融智能與安全防護新應用

07-03

外灘大會AI科創賽盛啟，三大領域角逐百萬獎金共促創新

7月3日，2025 Inclusion·外灘大會科技智能創新賽（簡稱“外灘大會AI科創賽”）正式啟動，本屆大賽在上海市科學技術委員會指導下，聚焦AI智能硬件、金融智能、AI安全等領域創新應用，設置人工智能硬…

07-03

點擊查看更多 +

全站最新

黑洞之謎：高維度或是解開其本質的關鍵線索

長四丙火箭西昌再建功，成功發射試驗二十八號B星01星入軌

哈工大錄取通知書：宇宙級浪漫，攜夢想上太空

小鵬G7正式上市挑戰Model Y，何小鵬：智能算力新紀元開啟，9分鐘大定破萬

豐田借勢漲價，或加速供應鏈倒戈，國產電車面臨新挑戰

小鵬G7正式上市：L3級算力引領智駕新時代，起售價19.58萬元

熱門內容

本欄最新

微軟年內二度大規模裁員，近9000崗位受影響

ABB推出三款新型機器人，瞄準中國中型企業自動化需求

中國移動中興通訊聯手打造“聯創+”自智網絡實驗室，加速科技創新成果轉化

榮耀Magic V5深度評測：極致輕薄下的性能與智能新高度

智譜AI上海子公司增資近50倍，寰宇科技公司資本躍升至5億

優必選杭州布局，新設智行機器人公司，注冊資本高達5000萬！

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

昆侖萬維發布Skywork-Reward-V2獎勵模型，全面奪魁七大主流評測榜單

日本精品一区二区三区高清久久