OpenAI近日正式發(fā)布了新一代圖像生成模型gpt-image-1.5,此舉被視為對Google Gemini體系下熱門產(chǎn)品Nano Banana系列的直接回應。新模型不僅面向開發(fā)者開放,還全面接管了ChatGPT的圖像生成功能,旨在鞏固其在AI圖像生成領域的領先地位。這一升級標志著OpenAI在圖像生成技術領域的又一次重要突破。
今年早些時候,OpenAI曾為ChatGPT的圖像生成功能帶來重大升級,新模型上線后迅速獲得用戶青睞,一周內(nèi)生成圖片數(shù)量突破7億張。隨后在4月,OpenAI通過推出gpt-image-1接口,將這項技術開放給開發(fā)者,使其能夠在各種應用和服務中集成圖像生成能力,進一步擴大了技術影響力。
與此同時,Google在9月推出的Gemini Nano Banana模型憑借其卓越的圖像生成和編輯性能,迅速成為市場焦點。該模型在畫面質(zhì)量和編輯靈活性方面表現(xiàn)突出,被認為全面超越了OpenAI的gpt-image-1,并獲得了全球開發(fā)者的廣泛認可。上個月,Google又推出了Gemini 3 Pro Image(代號Nano Banana Pro),進一步提升了生成圖像的準確性和一致性,鞏固了其在圖像生成領域的優(yōu)勢。
面對Google的強勁挑戰(zhàn),OpenAI推出的gpt-image-1.5被寄予厚望。新模型在圖像編輯的精細度、品牌Logo和人臉等關鍵元素的保真度方面均有顯著提升,同時能夠更精準地理解和執(zhí)行用戶指令。特別是在處理圖像中的文字時,新模型在密集文本和小字號文本的清晰度與正確性上表現(xiàn)尤為出色,滿足了用戶對高質(zhì)量圖像生成的更高需求。
對于開發(fā)者而言,gpt-image-1.5的另一大亮點是成本優(yōu)化。與上一代模型相比,新模型在圖像輸入與輸出的計費上降低了約20%,同時開發(fā)者仍可通過quality參數(shù)靈活控制生成成本。OpenAI表示,即使在較低質(zhì)量設置下,新模型仍能保持強大的生成效果,為開發(fā)者提供了更具性價比的選擇。
對于普通用戶來說,gpt-image-1.5已經(jīng)成為ChatGPT內(nèi)置圖像生成體驗的核心引擎。新模型能夠在保持光線、構圖和人物特征等細節(jié)基本不變的前提下,實現(xiàn)精準編輯,性能提升最多可達4倍,生成與編輯響應速度更快,為用戶帶來了更加流暢和高效的圖像生成體驗。






