日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

CVPR2025:快手可靈四大技術方向布局視頻生成及世界模型

   時間:2025-06-25 14:52:23 來源:互聯網編輯:茹茹 IP:北京 發表評論無障礙通道

近日,全球視覺AI領域的年度盛會CVPR 2025在美國田納西州納什維爾召開,快手可靈AI事業部萬鵬飛博士在備受矚目的“From Video Generation to World Model” Tutorial(《從視頻生成到世界模型》專題講座)上,發表了題為An Introduction to Kling and Our Research towards More Powerful Video Genaration Models的報告,從模型架構與生成算法、互動與可控能力、效果評估與對齊機制、多模態理解和推理四大技術方向介紹了可靈AI團隊在視頻生成及世界模型領域的最新進展與思考。

先進的模型結構與生成算法(Advanced Model Architectures and Generation Algorithms)

Scaling laws在大語言模型中已經有眾多研究工作和實際應用,但視頻生成領域缺乏精準好用的scaling laws公式??伸`團隊通過嚴謹的實驗與分析,首次建立了超參數、模型規模與計算預算之間的精確數學關系。這個成果讓我們可以更科學地設置模型參數規模和關鍵參數,從而更充分的發揮算力和數據資源的價值,達成更優的模型效果。參考論文:Towards Precise Scaling Laws For Video Diffusion Transformers

可靈團隊還推出了面向擴散模型的混合專家(MoE)架構DiffMoE?;谌址秶膖oken選擇機制和配套的推理策略,DiffMoE可根據擴散模型在不同生成階段的異構特性,更合理地分配計算資源。在圖像生成中,僅需激活1倍的參數量,便能達到3倍規模的密集模型的生成性能。參考論文:DiffMoE: Dynamic Token Selection For Scalable Diffusion Transformers

強大的交互與可控能力(Powerful Interaction and Control Capacities)

可靈團隊提出了一個多任務視頻生成模型框架FullDiT,將所有時空條件作為上下文無縫融合到一個統一的Diffusion Transformer架構中。FullDiT不需要針對不同任務更改模型結構,降低了各種不同控制條件之間的沖突,且展示出了優秀的可擴展性甚至涌現能力。參考論文:FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

在交互式視頻生成方向,可靈團隊提出了GameFactory框架,只需少量帶有動作控制信息的視頻訓練數據,即可支持可泛化到不同游戲場景的連續(如鼠標)和離散(如鍵盤)的動作控制能力。參考論文:GameFactory: Creating New Games with Generative Interactive Videos

準確的評估和對齊機制(Accurate evaluation and Alignment Mechanisms)

可靈團隊構建了一套基于人類反饋的強化學習(RLHF)的視頻生成框架,包括多維偏好數據構造、基于VLM的Reward模型,以及多種對齊算法。該框架是最早的系統性闡述如何應用RLHF到視頻生成任務的工作之一。參考論文:Improving Video Generation with Human Feedback

此外,面向圖像和視頻生成領域主流的流匹配(Flow Matching)生成算法,團隊通過ODE-to-SDE(常微分方程轉換到對應的隨機微分方程)等方案,有效解決了流匹配缺乏隨機性以及多步生成計算效率低的問題,提出了首個將GRPO引入流匹配模型的在線強化學習(RL)算法Flow-GRPO,并證明了其在圖像生成任務中的有效性。參考論文:Flow-GRPO: Training Flow Matching Models via Online RL

多模態感知與推理(Multimodal Perception and Reasoning)

視頻captioner(視頻內容的文本描述模型)對最終的視頻生成效果非常關鍵,但行業中缺乏好的效果評估的方法。可靈團隊提出一個視頻captioner評估框架VideoCapBench,具備穩定性和可靠性更高、以及與最終視頻生成效果相關性強的優點。參考論文: VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation

面向用戶意圖理解,可靈團隊提出的Any2Caption按照一種統一的方式理解多模態用戶輸入信息,進而生成語義豐富的結構化描述,可顯著提升視頻生成的成功率。參考論文:Any2Caption: Interpreting Any Condition to Caption for Controllable Video Generation

除tutorial報告外,本屆CVPR上可靈共有7篇論文入選,涵蓋視頻模型scaling law、視頻數據集、可控生成、人像生成、高清生成、4D生成等多個方向。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 山阴县| 临清市| 托里县| 苗栗市| 民勤县| 天全县| 延安市| 广灵县| 和顺县| 宁阳县| 建瓯市| 台江县| 信丰县| 子洲县| 松溪县| 大竹县| 栖霞市| 开原市| 金阳县| 浪卡子县| 伊金霍洛旗| 济阳县| 公主岭市| 黄石市| 沂水县| 临西县| 雅安市| 马公市| 正阳县| 左云县| 正阳县| 台江县| 墨江| 谢通门县| 双鸭山市| 仙桃市| 江安县| 涪陵区| 明溪县| 虞城县| 洪江市|