全球首個統一多模態視頻生成模型——可靈視頻O1,近日正式面向所有用戶開放使用。該模型通過構建新一代生成式技術底座,實現了多模態任務的無縫整合,用戶無需在不同功能模塊間切換,即可在單一交互界面完成復雜創作需求。
技術架構方面,可靈O1創新性地引入MVL(多模態視覺語言)交互框架,結合思維鏈(Chain-of-thought)推理機制,使模型具備對圖像、視頻、文本的深度語義理解能力。官方演示顯示,系統可精準解析用戶輸入的各類素材指令,無論是文字描述、參考圖片還是視頻片段,均能轉化為連貫的生成內容。
在創作體驗層面,全新上線的交互界面大幅降低了技術使用門檻。用戶通過自然語言對話即可操控素材組合,系統支持對生成細節的逐幀調整,包括光影效果、運動軌跡等參數。測試案例表明,即使非專業用戶也能快速掌握復雜場景的構建方法。
針對視頻生成的核心痛點,該模型在主體一致性方面取得突破。通過多視角主體建模技術,鏡頭切換時人物/物體的特征保持高度穩定,避免出現形變或邏輯錯誤。更支持同時處理多個獨立主體,各元素間的空間關系與互動邏輯均能自動推演生成。
據技術文檔披露,模型訓練數據覆蓋億級規模的圖文視頻素材,經過多輪對齊優化后,在運動合理性、場景連貫性等指標上達到行業領先水平。目前開放的功能已涵蓋影視制作、廣告創意、教育演示等多個領域,后續將持續迭代更多專業化工具模塊。





