上海交通大學、中國科學技術大學、上海人工智能實驗室與復旦大學聯合團隊在AI繪畫領域取得突破性進展。研究團隊提出的G?RPO技術框架通過創新機制解決了傳統AI繪畫訓練中的兩大核心難題,相關成果已發表于arXiv平臺(論文編號:arXiv:2510.01982v1)。
傳統AI繪畫訓練存在"反饋模糊"與"評估片面"的雙重困境。研究團隊將其類比為烹飪教學:廚師僅能在菜品完成后獲得整體評價,卻無法在烹飪過程中調整火候;同時評判標準僅限于單一視角,忽略了不同光線與距離下的呈現效果。這種訓練方式導致模型學習效率低下,難以精準捕捉人類審美偏好。
實驗驗證環節采用Flux.1-dev流模型作為基礎架構,在包含10.37萬條訓練指令與400條測試指令的HPSv2數據集上展開測試。評估指標覆蓋語義契合度、視覺連貫性、美學表現等12個維度。結果顯示,G?RPO在核心HPS-v2.1指標上較現有DanceGRPO方法提升6.52%,且該優勢在50步、20步、10步等不同生成速度下均保持穩定,證明其兼具效率與質量優勢。
在具體應用場景中,新技術展現出顯著改進。生成"國際象棋棋子表情"時,模型能精準捕捉棋子面部特征的微妙差異;創作"環保主題海報"時,可準確實現左右分區的空間布局要求。這種提升源于訓練效率的優化——單步采樣策略使多個樣本共享初始計算資源,大幅降低算力消耗。
研究特別關注模型偏好操縱問題。傳統方法易導致模型過度適配特定評估標準,出現"偏科"現象。G?RPO通過多粒度評估機制,迫使模型學習通用審美特征,而非簡單迎合單一標準。實驗表明,該方法生成的圖像在不同評估體系下均保持質量穩定性。
從技術架構看,G?RPO具有良好擴展性。研究證實,采用單層、雙層或三層評估粒度均可提升性能,為實際部署提供了靈活的資源配置方案。這種設計使系統既能適配高性能計算環境,也可在移動端等資源受限場景運行。
對于內容創作者而言,新技術意味著更高效的協作體驗。模型能準確理解創作意圖,減少反復修改的次數。普通用戶使用AI繪畫工具時,將獲得更貼合個人審美偏好的生成結果。研究團隊透露,該技術已與多家圖像生成平臺展開合作測試,預計未來12-18個月內逐步推向市場。









