阿里通義Qwen團隊近日推出了一款名為Qwen-Image-Edit-2511的全新圖像編輯模型,該模型在視覺生成領域實現了重要突破。與傳統的文生圖模型不同,這款模型專注于解決圖像編輯中的核心難題——在保持原圖主體結構不變的前提下,對特定區域進行精準修改,為開發者和設計師提供了更高效的AI輔助工具。
Qwen-Image-Edit-2511在上一版本Qwen-Image-Edit-2509的基礎上進行了多項關鍵升級。模型通過減輕圖像漂移現象,顯著提升了人物一致性,同時集成了LoRA能力,增強了工業設計生成能力,并強化了幾何推理能力。這些改進使得模型在處理復雜圖像編輯任務時表現更加出色。
該模型的最大亮點在于其強大的指令遵循能力。用戶無需掌握復雜的Photoshop技術或手動繪制選區,只需通過自然語言輸入指令,如“將畫面中的貓換成狗”或“移除背景中的路人”,模型即可自動理解意圖并執行操作。這種交互方式大大降低了圖像編輯的技術門檻,使更多用戶能夠輕松使用AI工具進行創作。
通過深度融合視覺編碼器與語言模型,Qwen-Image-Edit-2511能夠精確識別圖像中的語義對象。在修改目標物體時,模型會最大限度地保留原圖的光影、紋理及背景一致性,確保編輯后的圖像自然流暢,無明顯人工痕跡。這一特性在人物編輯場景中尤為突出,模型能夠在保留主體身份特征和視覺風格的基礎上,實現富有想象力的編輯效果。
在多人合影場景中,Qwen-Image-Edit-2511展現出了卓越的一致性表現。模型能夠將兩張獨立的人物圖像高保真地融合為一張協調的群像照片,解決了傳統方法中人物比例、光線和視角不匹配的問題。這一功能在攝影后期處理和創意合成中具有廣泛應用價值。
模型還集成了部分精選的熱門LoRA,無需額外微調即可直接使用。例如,在光照增強LoRA的加持下,用戶可以輕松實現逼真的光照控制,為圖像添加專業級的光影效果。這種開箱即用的設計大大簡化了工作流程,提高了創作效率。
幾何推理能力的引入是Qwen-Image-Edit-2511的另一大創新。模型能夠直接為設計或標注目的生成輔助構造線,幫助用戶更精準地完成構圖和布局。這一功能在工業設計、建筑繪圖和產品原型制作等領域具有重要實用價值,為專業人士提供了強大的輔助工具。





