全球首個多模態視頻與圖像創作工具“可靈O1”近日正式發布,標志著視頻創作領域迎來重大突破。該工具以自然語言為核心指令框架,整合視頻、圖像、主體等多維度描述,將生成與編輯功能集成于統一平臺,為用戶提供從創意構思到成品輸出的全流程解決方案。
作為首款大一統多模態模型,可靈O1基于多模態視覺語言(MVL)架構,突破傳統單一任務模型的局限。其核心引擎支持參考生視頻、文生視頻、首尾幀生成、視頻內容增刪、風格轉換等十余種功能,用戶無需切換工具即可完成復雜創作流程。模型具備深度語義解析能力,可綜合理解照片、視頻或主體特征,精準還原細節信息。例如,用戶輸入“移除畫面中的行人”或“將場景從白天改為黃昏”,系統會自動完成像素級重構,無需手動標注關鍵幀。
針對AI視頻創作中角色與場景一致性難題,可靈O1通過強化底層理解機制實現突破。模型能像專業導演般“記憶”主角、道具及場景特征,確保鏡頭切換時主體保持穩定。在多主體融合場景中,系統可獨立鎖定每個角色特征,即使面對復雜群像戲或互動畫面,仍能維持工業級精度。例如,用戶可將不同主體與參考圖自由組合,模型自動協調各元素關系,生成自然流暢的視覺效果。
該工具的創新性體現在“技能組合”功能上。用戶可同時下達多重指令,如“在添加新主體的同時修改背景”或“基于參考圖生成時調整畫面風格”,實現創意的疊加呈現。時間維度方面,創作者可自由定義3-10秒的敘事時長,無論是短促的視覺沖擊還是長鏡頭敘事,均能精準控制。即將上線的首尾幀功能將進一步擴展時間軸選擇范圍,增強故事張力。
同步推出的可靈圖像O1模型構建了完整的圖像創作鏈路。用戶既可通過文本描述生成基礎圖像,也能上傳最多10張參考圖進行融合創作。該模型具備四大優勢:特征穩定性確保主體元素不偏移;細節響應機制使修改符合預期;風格調性控制維持畫面統一性;超強想象力賦予創意更多可能性。例如,在服裝設計場景中,用戶上傳實拍圖后,模型可精準還原面料質感,批量生成不同角度的展示視頻。
實際應用場景中,可靈O1展現出強大適應性。影視制作團隊可利用其主體庫功能鎖定角色特征,快速生成連貫分鏡;自媒體創作者通過對話式指令即可完成視頻后期處理,如智能修補畫面瑕疵或調整色彩基調。廣告電商領域,該工具大幅降低實拍成本——用戶上傳商品圖、模特圖及場景圖后,系統能自動生成多版本廣告視頻,解決模特約拍、背景更換等難題。某服裝品牌測試顯示,使用可靈O1制作的虛擬走秀視頻,其細節還原度達到專業拍攝水平的92%。
技術層面,可靈O1的突破源于底層架構創新。全新視頻模型通過多模態Transformer與長上下文理解機制,實現了生成、編輯、理解三大功能的深度融合。這種統一底座設計不僅提升了運算效率,更開創了視頻創作工具的新范式。據開發團隊透露,后續版本將增加4K分辨率支持及3D場景生成功能,進一步拓展創作邊界。












