阿里近日正式開源全新圖像生成模型Qwen-Image-Layered,該模型首次在架構層面實現了類似Photoshop的圖層理解能力,標志著視覺大模型從"像素堆砌"向"空間重組"的重大突破。這一創新技術通過引入分層處理機制,使AI生成圖像的可編輯性達到專業設計工具水準,有望重塑數字內容創作流程。
傳統視覺大模型長期面臨"扁平化認知"困境,其處理圖像時將所有元素視為緊密耦合的像素矩陣,難以理解物體間的空間關系。這種局限導致圖像編輯如同"開盲盒"——修改某個元素往往引發全局變化,例如移動畫中貓咪時,背景紋理會完全重構而非自然填補。這種不可控性嚴重制約了AI在商業廣告、UI設計、影視后期等需要精準控制的場景應用。
Qwen-Image-Layered通過三項核心技術突破解決這一難題。首先研發團隊自研RGBA-VAE編碼體系,在傳統RGB色彩模式基礎上新增Alpha透明度通道,使模型具備圖層分離能力。其次創新的VLD-MMDiT架構配合3D位置編碼技術,讓AI能自動推理被遮擋區域的背景紋理。最關鍵的是,模型訓練階段直接解析海量PSD源文件,學習專業設計師的分層邏輯,形成"空間認知"本能。
實測顯示,該模型可實現近乎零誤差的圖層編輯:設計師能獨立調整特定圖層元素的位置、尺寸甚至重新繪制,而其他圖層保持完全不變。這種"內在可編輯性"徹底改變了創作模式——以往需要數小時的精細摳圖工作,現在通過AI原生支持即可瞬間完成。某動畫工作室測試表明,使用新模型后角色動畫制作效率提升40%,背景修改耗時從平均2.3小時縮短至8分鐘。
Qwen-Image-Layered分層處理機制示意圖
技術開源方面,該模型已在魔搭社區和HuggingFace平臺全面開放,支持商業用途免費下載。此舉延續了阿里在開源領域的領先布局——截至目前,千問系列已開源近400個模型,全球下載量突破7億次,衍生開發模型超18萬個。在企業服務市場,通義大模型以超百萬家客戶規模占據中國企業級市場首位,成為應用最廣泛的國產大模型。
行業分析師指出,Qwen-Image-Layered的分層處理能力將引發連鎖反應:設計工具可能向AI原生架構轉型,數字內容生產流程面臨重構,甚至催生新的創作職業形態。隨著模型在影視、游戲、廣告等領域的深度滲透,專業設計工具的市場格局或將迎來新一輪洗牌。








