Sam Altman 反擊谷歌,OpenAI新旗艦圖像模型來(lái)了
就在剛剛,OpenAI正式發(fā)布了新版ChatGPT Images,由全新的旗艦圖像生成模型GPT Image 1.5驅(qū)動(dòng)
這一次,無(wú)論是從零開(kāi)始生成圖像,還是編輯現(xiàn)有照片,新模型都能實(shí)現(xiàn)“所想即所得”
核心升級(jí)主要體現(xiàn)在三個(gè)方面:精準(zhǔn)修圖且保留細(xì)節(jié)、指令遵循能力更強(qiáng),以及生成速度提升了4倍
我立馬就測(cè)試了兩個(gè)手頭的case:ChatGPT Images vs Nano Banana Pro
提示詞
這是一張室內(nèi)人像寫(xiě)真風(fēng)格的照片,整體偏向干凈、柔和、略帶時(shí)尚感與親密氛圍,下面我從構(gòu)圖、人物、服裝、姿態(tài)、光線與整體氣質(zhì)幾個(gè)層面來(lái)忠實(shí)、細(xì)致地描述:
一、整體構(gòu)圖與環(huán)境
?豎幅構(gòu)圖,人物幾乎占據(jù)畫(huà)面主體,視覺(jué)重心集中在人物的上半身與面部。
?場(chǎng)景是一個(gè)簡(jiǎn)約現(xiàn)代的室內(nèi)空間,背景為大面積純白色墻面,干凈、無(wú)雜物,刻意弱化環(huán)境存在感。
?人物坐在一張黑色皮質(zhì)沙發(fā)上,沙發(fā)表面線條硬朗,與人物柔和的膚色形成對(duì)比。
?沙發(fā)上鋪著一塊黑白相間的長(zhǎng)毛絨毯,毛感明顯,增加了畫(huà)面的層次與觸感?
二、人物外貌與面部特征
?人物為一位年輕女性,整體氣質(zhì)偏清秀、柔和。
?膚色白皙均勻,質(zhì)感細(xì)膩,幾乎看不到明顯瑕疵。
?臉型偏鵝蛋臉,下頜線柔和,沒(méi)有明顯棱角。
?五官比例協(xié)調(diào):
?眼睛偏大,雙眼皮清晰,眼神平靜、直視鏡頭,帶有一點(diǎn)若有若無(wú)的疏離感。
?鼻梁挺直但不夸張。
?嘴唇偏小,唇色自然,表情克制,沒(méi)有明顯微笑。
?整體妝容為清淡自然妝:
?底妝輕薄
?眼妝干凈,沒(méi)有明顯煙熏或夸張色彩
?唇妝偏裸色或淡粉色
三、發(fā)型與發(fā)質(zhì)
?長(zhǎng)直發(fā),發(fā)色為偏暖的深棕色。
?中分發(fā)型,分縫筆直,左右對(duì)稱。
?頭發(fā)順直、貼合,發(fā)尾自然垂落至腰部附近,整體顯得柔順、有光澤。
?發(fā)量看起來(lái)較多,線條干凈,沒(méi)有明顯卷度。
四、服裝細(xì)節(jié)
?穿著一件白色蕾絲連衣裙:
?無(wú)袖設(shè)計(jì),露出肩部與手臂
?V 領(lǐng)或淺領(lǐng)口,領(lǐng)口處有精細(xì)的蕾絲花紋
?裙身貼合身體曲線,但并不夸張
?裙擺長(zhǎng)度偏短,停留在大腿中上部
?面料為蕾絲+內(nèi)襯結(jié)構(gòu),蕾絲紋理清晰,風(fēng)格偏女性化、柔美。
五、姿態(tài)與肢體語(yǔ)言
?人物以側(cè)坐姿坐在沙發(fā)上:
?上半身微微前傾
?一只手自然搭在沙發(fā)或毛毯上
?另一只手輕放在腿部
?雙腿彎曲收攏,姿態(tài)顯得放松而內(nèi)斂。
?整體肢體語(yǔ)言偏安靜、克制、略帶親密但不過(guò)分張揚(yáng)。
六、光線與攝影風(fēng)格
?使用的是柔和的棚拍或自然補(bǔ)光:
?光線均勻,沒(méi)有強(qiáng)烈陰影
?面部和身體輪廓被柔化
?色溫偏中性或微暖,突出膚色的細(xì)膩感。
?背景虛化不明顯,但因背景簡(jiǎn)潔,人物自然突出。
?整體風(fēng)格接近商業(yè)人像 / 時(shí)尚寫(xiě)真 / AI 或高精修風(fēng)格。
七、整體氣質(zhì)總結(jié)
這張照片給人的感覺(jué)是:
?干凈
?精致
?柔和
?帶一點(diǎn)冷靜與疏離
?偏“被觀看”的人像美學(xué),而非抓拍或紀(jì)實(shí)
2k分辨率
這是生成的效果:
第二個(gè)case:
提示詞:
{
描述:一幅超逼真的 3D 等距視角杰作,描繪了一幅展開(kāi)在光滑深色木桌上的魔法地圖。地圖繪制在一張古老而飽經(jīng)風(fēng)霜的羊皮紙卷軸上,但畫(huà)面中的景色以立體模型的形式躍然紙上。巍峨的巖石山脈,白雪皚皚的山峰,穿透縷縷白云;一條蜿蜒的碧綠河流從中心流過(guò);山麓覆蓋著茂密蔥郁的松林。羊皮紙邊緣呈鋸齒狀,左側(cè)飾有精美的復(fù)古書(shū)法,角落則繪有羅盤(pán)玫瑰圖案。畫(huà)面采用溫暖的電影級(jí)光照,焦點(diǎn)清晰,紋理細(xì)節(jié)豐富,2K 分辨率,以奇幻冒險(xiǎn)為主題。
"negative_prompt": "扁平的,2D 的,簡(jiǎn)單的圖畫(huà),模糊的,低質(zhì)量的,扭曲的,有水印的,糟糕的人體結(jié)構(gòu),文字疊加,顆粒感強(qiáng)的",
“參數(shù)”: {
"aspect_ratio": "2:3",
"風(fēng)格": "電影級(jí) 3D 渲染",
"視圖": "等距"
}
}
生成的效果:
看起來(lái)ChatGPT Images指令遵循的要比NBR要強(qiáng)(人像),審美能力還不好說(shuō)
目前ChatGPT Images 在 大模型競(jìng)技場(chǎng)圖像排名第一
接下來(lái)幾天我會(huì)大量測(cè)試,看看實(shí)際表現(xiàn)
與此同時(shí),GPT Image 1.5 API也已同步上線,價(jià)格相比上一代直降20%
下面我們一起來(lái)看ChatGPT Images具體細(xì)節(jié)
精準(zhǔn)修圖:指哪打哪,細(xì)節(jié)不丟
新版模型最大的亮點(diǎn)在于對(duì)用戶意圖的精準(zhǔn)還原
當(dāng)用戶要求對(duì)上傳的圖片進(jìn)行編輯時(shí),模型能夠更可靠地遵循指令,僅改變用戶要求的部分。
而在這一過(guò)程中,原圖中光線、構(gòu)圖以及人物外觀等關(guān)鍵要素,都能在輸入、輸出及后續(xù)的連續(xù)編輯中保持一致
這就意味著,ChatGPT現(xiàn)在不僅能完成更實(shí)用的照片修飾,還能實(shí)現(xiàn)更逼真的服裝和發(fā)型試穿。同時(shí),它支持在保留原圖精髓的基礎(chǔ)上,進(jìn)行風(fēng)格化濾鏡和概念轉(zhuǎn)換
具體到編輯操作上,模型擅長(zhǎng)多種類型,包括:
? 添加(Adding)
? 刪減(Subtracting)
? 組合(Combining)
? 混合(Blending)
? 移位(Transposing)
簡(jiǎn)而言之,用戶可以在得到想要的改變的同時(shí),不丟失讓圖片顯得特別的那些原始細(xì)節(jié)。OpenAI稱其為“口袋里的創(chuàng)意工作室”
創(chuàng)意與能力的全面進(jìn)化
除了修圖,GPT Image 1.5在創(chuàng)意生成和基礎(chǔ)能力上也有顯著提升:
創(chuàng)意變換:模型可以通過(guò)改變和添加元素(如文本和布局)來(lái)實(shí)現(xiàn)創(chuàng)意轉(zhuǎn)化,同時(shí)保留重要細(xì)節(jié),這個(gè)和Nano Banana Pro表現(xiàn)感覺(jué)差不多
更強(qiáng)的指令遵循:相比初代版本,新模型能更可靠地執(zhí)行指令。這不僅利于精準(zhǔn)修圖,也能在生成復(fù)雜的原創(chuàng)構(gòu)圖時(shí),按預(yù)期保留元素間的關(guān)系
文本渲染能力強(qiáng)悍升級(jí):在處理更密集、更小的文本時(shí),模型表現(xiàn)強(qiáng)悍
畫(huà)質(zhì)提升:在渲染許多小人臉以及整體輸出的自然度等方面,質(zhì)量均有改進(jìn)
全新交互:無(wú)需提示詞也能玩
為了讓圖像探索更快捷,OpenAI在ChatGPT中推出了專門的Images主頁(yè)
自動(dòng)播放用戶可以通過(guò)移動(dòng)應(yīng)用的側(cè)邊欄或chatgpt.com訪問(wèn)該頁(yè)面。這里不再?gòu)?qiáng)制要求用戶編寫(xiě)提示詞,而是內(nèi)置了數(shù)十種預(yù)設(shè)的濾鏡和提示,幫助用戶快速啟動(dòng)靈感
這些預(yù)設(shè)內(nèi)容會(huì)定期更新,以反映當(dāng)下的流行趨勢(shì)
API上線:更便宜,更適合企業(yè)
對(duì)于開(kāi)發(fā)者和企業(yè)用戶,GPT Image 1.5 API也已同步開(kāi)放。
相比GPT Image 1,新版API在圖像輸入和輸出的價(jià)格上便宜了20%,這意味著在相同預(yù)算下可以進(jìn)行更多的生成和迭代。
在能力上,API版本繼承了ChatGPT Images的所有改進(jìn),特別是在圖像一致性方面表現(xiàn)更強(qiáng):
能夠跨編輯保持品牌Logo和關(guān)鍵視覺(jué)元素的一致性
非常適合營(yíng)銷材料制作(如圖形和Logo創(chuàng)作)
適用于電商團(tuán)隊(duì),可基于單一源圖像生成完整的產(chǎn)品目錄(包括不同變體、場(chǎng)景和角度)
目前,已有創(chuàng)意工具、電商、營(yíng)銷軟件等領(lǐng)域的企業(yè)開(kāi)始使用GPT Image 1.5。
最后
ChatGPT Images的新版本即日起向全球所有ChatGPT用戶和API用戶推送。
該功能跨模型工作,用戶在使用時(shí)無(wú)需進(jìn)行額外選擇
至于今年早些時(shí)候推出的舊版ChatGPT Images,將作為一個(gè)自定義GPT(Custom GPT)保留,供有需要的用戶繼續(xù)使用







