GPT-4o 上半年帶來的那波熱度,不僅讓奧特曼感受到了 GPU 融化的氣息,也讓生圖、理解視覺幾乎變成了所有大模型的標(biāo)配賣點(diǎn)。
但到了今年下半年,真正刷足存在感的卻是那根「香蕉」:Nano Banana。
為了搶回頭把交椅,OpenAI 今天正式推出了最新圖像視覺模型 GPT-Image-1.5。這也是繼 GPT-5.2 之后,OpenAI 紅色警報(bào)計(jì)劃中又一記重拳。
自動(dòng)播放建議戴耳機(jī)食用
省流版如下:
指令執(zhí)行更準(zhǔn)確
編輯更精確
細(xì)節(jié)保留更完整
比之前快 4 倍
告別「抽卡」玄學(xué),編輯細(xì)節(jié)能力拉滿
GPT-Image-1.5 最大的升級(jí)點(diǎn)在于「精準(zhǔn)編輯」。
以前用 AI 改圖,簡(jiǎn)直像碰上了一個(gè)聽不懂人話的「托尼老師」,你只想修修劉海,它反手就給你剃了個(gè)光頭。現(xiàn)在,模型終于聽懂了人話。你改哪里,它就動(dòng)哪里。
光線、構(gòu)圖、人物特征,在輸入、輸出和后續(xù)編輯的閉環(huán)都能保持一致性。
聽起來很抽象?看看官方給出的示例。
將兩個(gè)男性和一只狗合成到一張 2000 年代膠片風(fēng)格的兒童生日派對(duì)照片中 →
添加背景中吵鬧投擲東西的孩子們 →
將左邊的男人改為復(fù)古手繪風(fēng)格,把狗變成毛絨玩具風(fēng)格,右邊男子和背景保持不變 →
為所有人換上 OpenAI 毛衣 →
最后只保留狗,把畫面放入一場(chǎng) OpenAI 的直播中……
上下滑動(dòng)內(nèi)容
一套連招下來,畫面邏輯居然沒崩。這說明 GPT-Image-1.5 不再是靠「蒙」,而是真的理解了畫面結(jié)構(gòu),并完成增刪改查。而能改得準(zhǔn)、穩(wěn)得住,才是現(xiàn)在的技術(shù)護(hù)城河。
再來看幾個(gè)我實(shí)際測(cè)試的案例。
你或許看過《千里江山圖》這幅傳世名作,但你或許還遺漏了億點(diǎn)點(diǎn)細(xì)節(jié)。
同理可得,誰說《百駿圖》里,不能突然出現(xiàn)一只從現(xiàn)代穿越過來的網(wǎng)紅柴犬 Kabosu。
就連馬斯克和扎克伯格那場(chǎng)沒打成的籠中決斗,在 GPT-Image-1.5 的加持下,一次性就成功把主角換成了奧特曼。臉沒崩,違和感也幾乎為零。
我們要一張細(xì)節(jié)豐富、逼真寫實(shí)的極端仰拍照片,馬斯克坐在珠江岸邊單手搭著廣州塔尖。為了體現(xiàn)巨物感,還得在他的腳邊撒上微小的游船和游客。
結(jié)果,它也確實(shí)懂了什么是「比例感」。
提示詞:一張細(xì)節(jié)豐富、逼真寫實(shí)的極端仰拍照片,畫面中的馬斯克正在坐在珠江岸邊,一只手搭在廣州塔的塔尖上,為了體現(xiàn)巨大的體型比例,可在他的腳邊加入一些微小的游船、觀光游客等,2K,16:9
終于不再畫「鬼畫符」,但中文表現(xiàn)……
相比初版圖像模型,GPT-Image-1.5 更擅長(zhǎng)遵循復(fù)雜、細(xì)致的指令,能保持各元素之間的預(yù)設(shè)關(guān)系。
官方展示了一個(gè) 6x6 的網(wǎng)格圖案例,每一行都要按指定內(nèi)容布置,希臘字母、動(dòng)物、物品、圖標(biāo)、單詞,模型排列得井井有條,強(qiáng)迫癥看了都得說聲舒服。
經(jīng)過實(shí)測(cè),把線稿轉(zhuǎn)成真實(shí)圖片這種操作,現(xiàn)在也成了基操。
文本渲染能力也進(jìn)一步提升,能更好地處理密集、小字體內(nèi)容。比如將一段 Markdown 格式的內(nèi)容呈現(xiàn)為自然的報(bào)紙文章布局,內(nèi)容包括 GPT-5.2 發(fā)布說明、性能基準(zhǔn)對(duì)比等,格式和數(shù)字都能保持完整準(zhǔn)確。
這個(gè)能力聽起來可能不起眼,但對(duì)于需要生成海報(bào)、宣傳圖、信息圖表的用戶來說,簡(jiǎn)直是剛需。
在 Nano Banana Pro 出現(xiàn)之前,生成式 AI 的文本渲染一直抽象得離譜,現(xiàn)在終于能看了。不過我們得潑盆冷水,GPT-Image-1.5 的英文能力確實(shí)能打,但中文表現(xiàn)依然是災(zāi)難現(xiàn)場(chǎng)。
我讓它畫個(gè)「擎天柱征服火星」的中文漫畫,它能給我自創(chuàng)一門火星文。
亦或者讓其生成一張古人在墻壁寫水調(diào)歌頭的圖片,不僅文字錯(cuò)漏百出,握筆姿勢(shì)還居然是拿鋼筆的手法。
好在生成速度快了 4 倍,這邊還在畫著,那邊你可以同時(shí)開幾個(gè)新任務(wù),試錯(cuò)成本大大降低。物體知識(shí)儲(chǔ)備也還算在線,問它往水里加鹽雞蛋會(huì)怎樣,生成的圖片倒是有模有樣。
左為原圖,右為生成的圖片。提示詞:如果往水中加入大量鹽,生成一張圖片,展示雞蛋會(huì)發(fā)生什么。
博主 @Yuchenj_UW 則認(rèn)為 GPT-Image-1.5 的生成效果大致達(dá)到了 Nano Banana Pro 的「專業(yè)級(jí)」水準(zhǔn),但「智商/推理能力」明顯落后于 Nano Banana Pro,尤其在數(shù)學(xué)題上(以及其他物理/迷宮類問題)表現(xiàn)更差。
你的下一位設(shè)計(jì)師,何必是人?ChatGPT 申請(qǐng)出戰(zhàn)
OpenAI 這次還在 ChatGPT 里專門開辟了一個(gè)圖像創(chuàng)作入口。
網(wǎng)頁(yè)和移動(dòng)端側(cè)邊欄都能看到這個(gè)新入口,里面塞滿了預(yù)設(shè)濾鏡和熱門提示詞,還會(huì)定期更新。上傳一次肖像,以后張張都是你,不用反復(fù)喂圖。
說實(shí)話,這功能 Nano Banana 沒有,但國(guó)內(nèi)的生圖模型早就玩爛了。 某種程度上,GPT-Image-1.5 也算是在摸著國(guó)內(nèi)同行的石頭過河。
剛剛,奧特曼也在社交媒體上分享了自己用 GPT-Image-1.5 生成的圣誕性感月歷男模照片。
來都來了,我們也順手給奧特曼換了幾套皮膚。貼紙風(fēng)、搖頭娃娃風(fēng)、素描風(fēng),預(yù)計(jì)今天過后,奧特曼又要成為互聯(lián)網(wǎng)上最忙的男人。
有個(gè)細(xì)節(jié)很值得點(diǎn)贊,當(dāng)你要求生成預(yù)設(shè)方案時(shí),OpenAI 會(huì)公開預(yù)設(shè)的提示詞。從這一點(diǎn)來看,OpenAI 確實(shí) open 了。
除此之外,制作賀卡、創(chuàng)建專輯封面,修復(fù)老照片,拍攝專業(yè)求職照片等也都是非常實(shí)用的預(yù)設(shè)方案。比如,那張經(jīng)典的魯迅和泰戈?duì)柕暮险眨?jīng)過修復(fù)后,其實(shí)效果還是挺不錯(cuò)。
OpenAI 應(yīng)用 CEO Fidji Simo 在博客中寫道:「人類的思維并不只是由文字組成。事實(shí)上,我們最有創(chuàng)意的想法,往往起源于腦海中的圖像、聲音、動(dòng)作或模式。」
她透露,ChatGPT 正在從一個(gè)反應(yīng)式、以文本為核心的產(chǎn)品,轉(zhuǎn)變?yōu)橐粋€(gè)更直觀、更能貼合你各種任務(wù)需求的工具。從純文字向多媒體和動(dòng)態(tài)界面轉(zhuǎn)變,是這一進(jìn)化過程中的重要一步。
很多用戶第一次接觸 ChatGPT,都是通過文字生成圖片。但 ChatGPT 的聊天界面最初并不是為此設(shè)計(jì)的。圖像創(chuàng)作和編輯是一種完全不同的任務(wù),需要專門的視覺空間來支持。于是,OpenAI 干脆給它搞了個(gè)專屬入口,讓圖像生成有了一個(gè)更像創(chuàng)意工作室的環(huán)境。
甚至寫作體驗(yàn)也在改,未來內(nèi)置的寫作模塊讓你在聊天中就能直接編輯,還能一鍵導(dǎo)出 PDF 或直接調(diào)用郵件應(yīng)用發(fā)送。ChatGPT 早已不是一款單純的語(yǔ)言模型,它正在變成一個(gè)真正的多模態(tài)工作臺(tái)。
當(dāng)然,除了普通用戶,開發(fā)者也能通過 API 用上 GPT-Image-1.5。
相比 GPT-Image-1,GPT-Image-1.5 具備更強(qiáng)的品牌元素與關(guān)鍵視覺保持能力,適合電商、品牌營(yíng)銷等需要生成大量變體圖片的場(chǎng)景。圖像輸入輸出費(fèi)用降低 20%,同樣預(yù)算可生成更多圖像。
降價(jià)+提效,這套組合拳打得還是挺實(shí)在的。
除此之外,迪士尼上周已經(jīng)宣布向 OpenAI 投資 10 億美元,并達(dá)成了合作協(xié)議。
根據(jù)這項(xiàng)為期三年的授權(quán)協(xié)議,OpenAI 旗下的 Sora 和圖像生成模型都能生成迪士尼、漫威、皮克斯和星球大戰(zhàn)旗下角色,并計(jì)劃在明年初正式上線相關(guān)功能。
內(nèi)容 IP 加 AI 生成,這背后想象空間確實(shí)挺大。
更重要的是,GPT-Image-1.5 的發(fā)布,標(biāo)志著圖像生成工具正在從「玩具」向「工具」轉(zhuǎn)變。
目前市面上大多數(shù) AI 改圖工具,一改就崩,毫無一致性可言。
GPT-Image-1.5 至少在這個(gè)方向上邁出了堅(jiān)實(shí)的一步。它開始具備后期編輯能力,能像 Nano Banana Pro 一樣控制細(xì)節(jié),確保畫面連貫。
在模型能力較弱的情況下,GPT-Image-1.5 通過更完善的圖片生成預(yù)設(shè)方案, 以及功能設(shè)置來完成對(duì)新版 Nano Banana 的反擊, 也確實(shí)是不錯(cuò)的選擇。
專屬圖像創(chuàng)作入口、預(yù)設(shè)濾鏡庫(kù)等等,這些看似不起眼的產(chǎn)品設(shè)計(jì), 恰恰擊中了普通用戶的痛點(diǎn)。很多人并不需要最強(qiáng)的模型, 他們需要的是能快速上手、不用反復(fù)調(diào)教、生成結(jié)果八九不離十的工具。
模型能力領(lǐng)先只是第一步, 如何把能力轉(zhuǎn)化為好用、易用、愛用的產(chǎn)品,才是真正的護(hù)城河。







