AI圖像生成領(lǐng)域迎來重大突破——港科大賈佳亞團(tuán)隊(duì)研發(fā)的DreamOmni2模型,成功攻克了多模態(tài)指令編輯與生成的技術(shù)瓶頸。該成果論文《DreamOmni2: Multimodal Instruction-based Editing and Generation》在GitHub發(fā)布兩周即收獲1600顆星,引發(fā)YouTube創(chuàng)作者群體熱議,更被國(guó)外技術(shù)論壇稱為"智能創(chuàng)作工具的里程碑"。
傳統(tǒng)AI創(chuàng)作工具的局限性日益凸顯。當(dāng)用戶試圖將照片中背包替換為波西米亞風(fēng)格圖案時(shí),語言描述的乏力暴露無遺;而要模仿老照片的復(fù)古膠片光影或特定畫家的筆觸風(fēng)格,現(xiàn)有模型更是束手無策。這種"語言失語"現(xiàn)象,正是DreamOmni2要解決的核心問題。
研究團(tuán)隊(duì)構(gòu)建的三階段數(shù)據(jù)訓(xùn)練體系堪稱創(chuàng)新典范。通過特征混合方案生成高質(zhì)量圖像對(duì),解決傳統(tǒng)拼接法導(dǎo)致的邊緣模糊問題;利用提取模型與編輯模型聯(lián)動(dòng),自動(dòng)生成(源圖+指令+參考圖)→目標(biāo)圖的完整訓(xùn)練數(shù)據(jù);最終形成支持多參考圖像輸入的綜合性數(shù)據(jù)集。這種從零開始的數(shù)據(jù)構(gòu)建方法,為模型提供了精準(zhǔn)理解抽象概念的"教材"。
模型架構(gòu)的革新同樣引人注目。針對(duì)多圖像輸入的混淆難題,團(tuán)隊(duì)開發(fā)的索引編碼與位置編碼偏移技術(shù),使模型能準(zhǔn)確區(qū)分不同參考圖像。聯(lián)合訓(xùn)練視覺語言模型(VLM)與生成模型的方案,則顯著提升了指令理解能力。通過LoRA微調(diào)技術(shù),模型在保持原有功能的基礎(chǔ)上,新增了多模態(tài)處理能力。
實(shí)測(cè)數(shù)據(jù)印證技術(shù)突破。在風(fēng)格遷移測(cè)試中,DreamOmni2將像素風(fēng)、二次元等復(fù)雜風(fēng)格完美復(fù)現(xiàn),對(duì)比GPT-4o僅遷移色調(diào)、Nano Banana僅輕微變色的表現(xiàn)形成碾壓優(yōu)勢(shì)。多圖編輯測(cè)試更顯實(shí)力:讓鸚鵡佩戴指定帽子并復(fù)刻火箭圖氛圍時(shí),模型精準(zhǔn)還原了羽毛紋理、帽子顏色與背景光影。
基準(zhǔn)測(cè)試揭示技術(shù)代差。在205個(gè)多模態(tài)編輯測(cè)試用例中,DreamOmni2的物體遷移準(zhǔn)確率與抽象屬性一致性均領(lǐng)先GPT-4o和Nano Banana。定量分析顯示,該模型在生成準(zhǔn)確性指標(biāo)上超越開源模型37%,在對(duì)象一致性方面領(lǐng)先29%。特別是在處理四圖組合生成梵高風(fēng)格畫作時(shí),人物特征與筆觸色彩均得到忠實(shí)呈現(xiàn)。
技術(shù)社區(qū)的反響印證實(shí)用價(jià)值。海外創(chuàng)作者制作的教程視頻中,DreamOmni2被冠以"最強(qiáng)免費(fèi)工作流"稱號(hào)。用戶實(shí)測(cè)顯示,模型能精準(zhǔn)復(fù)刻人物表情的嘴角弧度與眼睛瞇縫程度,甚至能處理發(fā)型改變帶來的頸部陰影變化。這種超越語言描述的創(chuàng)作能力,正在重新定義智能工具的邊界。











