可靈AI通過(guò)官方渠道正式宣布,其研發(fā)的全球首款統(tǒng)一多模態(tài)視頻生成模型——可靈視頻O1已面向全體用戶開放使用。該模型通過(guò)構(gòu)建新一代生成式技術(shù)框架,實(shí)現(xiàn)了文本、圖像、視頻等多類型任務(wù)的深度整合,用戶無(wú)需切換不同功能模塊即可完成復(fù)雜創(chuàng)作需求。
技術(shù)層面,模型創(chuàng)新性地引入多模態(tài)視覺語(yǔ)言交互架構(gòu)(MVL),配合思維鏈(Chain-of-thought)推理機(jī)制,使系統(tǒng)具備對(duì)復(fù)雜場(chǎng)景的語(yǔ)義解析能力。官方演示顯示,該模型可同時(shí)處理包含多重指令的混合輸入,例如通過(guò)單段文本描述生成包含特定角色動(dòng)作、環(huán)境細(xì)節(jié)的連貫視頻片段,并自動(dòng)推演事件發(fā)展邏輯。
新上線的創(chuàng)作平臺(tái)顯著優(yōu)化了交互體驗(yàn),用戶通過(guò)自然語(yǔ)言對(duì)話即可調(diào)用海量素材庫(kù),精準(zhǔn)控制畫面細(xì)節(jié)。系統(tǒng)支持對(duì)主體特征進(jìn)行三維建模,確保在鏡頭運(yùn)動(dòng)、視角切換過(guò)程中保持形象一致性,即使同時(shí)存在多個(gè)可交互主體,各元素的空間關(guān)系與動(dòng)作邏輯仍能保持精準(zhǔn)協(xié)調(diào)。
據(jù)技術(shù)文檔披露,該模型經(jīng)過(guò)海量跨模態(tài)數(shù)據(jù)訓(xùn)練,形成獨(dú)特的語(yǔ)義理解維度。無(wú)論是靜態(tài)圖片、動(dòng)態(tài)視頻還是文字描述,均可轉(zhuǎn)化為系統(tǒng)可執(zhí)行的創(chuàng)作指令。這種設(shè)計(jì)突破了傳統(tǒng)視頻生成工具的功能邊界,為專業(yè)創(chuàng)作者與普通用戶提供了更高效的表達(dá)工具。
實(shí)際測(cè)試表明,在復(fù)雜場(chǎng)景構(gòu)建任務(wù)中,模型可自動(dòng)補(bǔ)全畫面細(xì)節(jié)并維持風(fēng)格統(tǒng)一。例如用戶輸入"黃昏時(shí)分的賽博朋克城市,飛行汽車掠過(guò)全息廣告牌",系統(tǒng)不僅能生成符合物理規(guī)律的鏡頭運(yùn)動(dòng),還會(huì)自主添加霓虹光影、雨滴反光等環(huán)境細(xì)節(jié),使畫面更具沉浸感。











