OpenAI近日正式發(fā)布新一代視頻生成模型Sora 2,該模型在物理模擬精度、畫面真實(shí)感及用戶控制能力方面實(shí)現(xiàn)突破性進(jìn)展。此次升級(jí)首次引入與視頻畫面同步生成的AI音頻功能,能夠精準(zhǔn)匹配復(fù)雜動(dòng)作場(chǎng)景的物理規(guī)則,例如物體碰撞、液體流動(dòng)等動(dòng)態(tài)效果的聲效還原。
伴隨模型發(fā)布,OpenAI同步推出iOS版獨(dú)立應(yīng)用Sora,其核心功能"入鏡"(Cameo)允許用戶通過(guò)上傳照片或?qū)崟r(shí)拍攝,將自身形象自然融入生成的視頻場(chǎng)景中。該應(yīng)用已開啟美國(guó)和加拿大地區(qū)的優(yōu)先體驗(yàn),后續(xù)將分階段向全球用戶開放。開發(fā)者接口方面,Sora API將于數(shù)周內(nèi)正式上線,為第三方應(yīng)用提供視頻生成能力支持,目前安卓版本仍在研發(fā)階段。
在服務(wù)模式上,Sora 2采取基礎(chǔ)版免費(fèi)+高級(jí)版訂閱的策略。所有用戶均可免費(fèi)使用標(biāo)準(zhǔn)畫質(zhì)版本,但設(shè)有每日生成次數(shù)限制;ChatGPT Pro會(huì)員可解鎖"Sora 2 Pro"模型,獲得4K分辨率、60幀率等增強(qiáng)參數(shù);ChatGPT Plus用戶則與免費(fèi)用戶保持同等權(quán)益。這種分層設(shè)計(jì)既降低了技術(shù)普及門檻,又為專業(yè)創(chuàng)作者提供了進(jìn)階選擇。
技術(shù)文檔顯示,Sora 2通過(guò)改進(jìn)時(shí)空注意力機(jī)制,顯著提升了長(zhǎng)視頻生成的連貫性。在測(cè)試案例中,模型成功處理了包含20個(gè)獨(dú)立物體交互的復(fù)雜場(chǎng)景,其物理引擎對(duì)重力、摩擦力等參數(shù)的模擬準(zhǔn)確率較初代提升47%。這種進(jìn)步使得生成內(nèi)容在科學(xué)演示、游戲開發(fā)等領(lǐng)域具有更高實(shí)用價(jià)值。











