一款名為“Nano Banana”的匿名AI模型,在海外測(cè)評(píng)平臺(tái)LMArena悄然現(xiàn)身后,迅速掀起了一場(chǎng)技術(shù)風(fēng)暴。這款沒(méi)有開(kāi)發(fā)者標(biāo)識(shí)、沒(méi)有品牌背書(shū)的模型,憑借其驚人的圖像生成與編輯能力,在Battle模式中擊敗了多個(gè)知名對(duì)手,引發(fā)網(wǎng)友熱議。人們不僅為其貼上“一致性之王”“Photoshop殺手”等標(biāo)簽,更在Reddit和Discord等技術(shù)論壇中展開(kāi)激烈討論,試圖揭開(kāi)其背后的神秘面紗。
隨著討論的深入,谷歌AI Studio負(fù)責(zé)人Logon在X平臺(tái)發(fā)布了一個(gè)香蕉表情符號(hào),DeepMind產(chǎn)品經(jīng)理Naina也分享了一張香蕉藝術(shù)貼墻作品。結(jié)合谷歌以往將小型模型命名為Nano的歷史,答案逐漸浮出水面。8月27日,谷歌正式揭曉答案:Nano Banana正是其全新推出的圖像生成與編輯模型Gemini 2.5 Flash Image。
這款模型的火爆程度遠(yuǎn)超預(yù)期。谷歌實(shí)驗(yàn)室總裁Josh Woodward透露,Nano Banana上線一周后,已累計(jì)完成超2億次圖像編輯,為Gemini吸引了超過(guò)1000萬(wàn)新用戶。其熱度甚至導(dǎo)致谷歌內(nèi)部TPU資源嚴(yán)重過(guò)載,SRE警報(bào)不斷。用戶們爭(zhēng)先恐后地體驗(yàn)、開(kāi)發(fā)新玩法,并在社交媒體上分享傳播,形成了類似2023年ChatGPT發(fā)布時(shí)的盛況。
Nano Banana的多元素拼接功能率先出圈。用戶只需上傳一張包含多個(gè)元素的圖片,并為每個(gè)元素打上標(biāo)簽,然后輸入想要生成的圖片概述,模型即可快速生成高質(zhì)量圖像。例如,用戶Travis David上傳了一張包含13個(gè)元素的圖片,輕松獲得了一張堪比VOGUE雜志的時(shí)尚大片。他表示,13個(gè)元素幾乎已逼近模型的上限。
在海量用戶的開(kāi)發(fā)下,多元素拼接功能很快衍生出各類創(chuàng)意玩法。時(shí)尚博主們無(wú)需再費(fèi)勁扒明星同款穿搭,只需上傳圖片,模型即可秒出穿搭清單,甚至能將二次元?jiǎng)勇巧拇┐钷D(zhuǎn)化為OOTD圖。實(shí)測(cè)中,用戶還能讓模型按照指令生成某種風(fēng)格的模特穿搭圖,再拆解為OOTD,全程僅耗時(shí)三分鐘。盡管模型在拆解過(guò)程中偶爾會(huì)出現(xiàn)小錯(cuò)誤,但修改指令后,它能精準(zhǔn)刪掉多余元素,而不改動(dòng)圖片的其他部分。
對(duì)于日常真人出鏡拍攝OOTD的網(wǎng)紅模特來(lái)說(shuō),Nano Banana同樣帶來(lái)了便利。他們只需選一張狀態(tài)好的全身照、一張面部寫真,再上傳穿搭單品圖片,即可快速獲得寫真級(jí)別且無(wú)需修圖的素材,省去了畫(huà)全妝、找場(chǎng)地、擺pose等繁瑣工作。
除了人與物之間的圖像生成,Nano Banana還適用于人與人關(guān)系的拼貼。無(wú)論是好萊塢巨星、商界巨擎,還是像馬斯克這樣的公眾人物,用戶只需一聲令下,即可讓他們“千里奔赴”來(lái)與自己拍一張合照。這一功能讓追星黨們直呼萬(wàn)歲。
更進(jìn)階的玩法是利用Nano Banana自制手辦。用戶上傳自家毛孩子、明星、二次元偶像的圖片,模型即可生成適用手辦制作的圖像,甚至能提供手辦成品的細(xì)節(jié)圖乃至視頻。盡管目前尚未有用戶實(shí)測(cè)做出手辦的分享,但電商平臺(tái)上已有商家開(kāi)始承接基于Nano Banana生成圖像的手辦制作。不過(guò),商家表示,AI生成的手辦建模圖只能作為參考,實(shí)物做出來(lái)仍有差距。
Nano Banana的實(shí)力遠(yuǎn)不止于此。它在地圖和建筑領(lǐng)域的空間推理圖像再生效果,也讓很多專業(yè)人士嘖嘖稱奇。用戶只需上傳一張平面地圖,并按照需求打上標(biāo)簽和指令,模型即可平地起高樓般生成地圖對(duì)應(yīng)的實(shí)景。反之,如果用戶上傳一張城市建筑實(shí)景圖,模型又能清晰地給出圖中建筑的模型圖,或者按照用戶的要求標(biāo)注圖片建筑的相關(guān)信息。這一功能同樣適用于數(shù)碼電子產(chǎn)品甚至智能汽車。
隨著Nano Banana的走紅,層出不窮的創(chuàng)意玩法以日為單位被開(kāi)發(fā)出來(lái)。利用模型做漫畫(huà)分鏡、給線圖上色,甚至直接生成有連貫劇情的電影畫(huà)面……這一切的發(fā)生只用了短短兩周時(shí)間,其爆發(fā)速度甚至超越了當(dāng)年橫空出世的ChatGPT。
Nano Banana的技術(shù)突破,在于其針對(duì)“理解-生成-保持一致-快速迭代”閉環(huán)的工程化解決方案。傳統(tǒng)的AI模型往往“偏科”嚴(yán)重,文字讀寫能力強(qiáng)的模型不太懂圖像,繪圖能力強(qiáng)的模型對(duì)文字的解讀卻很淺顯。而Nano Banana從訓(xùn)練之初就以文本、圖像、代碼等數(shù)據(jù)給模型學(xué)習(xí),因此它不再需要將一個(gè)模態(tài)“翻譯”成另一個(gè)模態(tài),而是天然就具有多模態(tài)語(yǔ)義對(duì)齊能力。這種在文字和圖像之間無(wú)縫切換的能力,使得用戶可以用日常對(duì)話的形式,無(wú)痛用嘴修圖。
Nano Banana在交錯(cuò)式生成與一致性保持上,也對(duì)傳統(tǒng)模型進(jìn)行了降維打擊。它能夠在一個(gè)連續(xù)的、多步驟的會(huì)話中,綜合理解所有上下文的能力,包括用戶之前下達(dá)的文字指令、上傳的圖片,以及模型自己生成的歷史結(jié)果。同時(shí),它還能在多次生成和編輯中,保持特定主題(人物、物體、風(fēng)格)的核心能力。這一優(yōu)勢(shì)使得用戶在創(chuàng)作一組不同場(chǎng)景下的插圖時(shí),無(wú)需每次重新描述特征,模型即可保持風(fēng)格一致。
Nano Banana的快速迭代能力也遠(yuǎn)超傳統(tǒng)模型。它能夠?qū)⒛P蛪嚎s優(yōu)化到實(shí)際產(chǎn)品中以秒級(jí)響應(yīng)返還高清圖像,實(shí)測(cè)約13秒/張。這種快速響應(yīng)能力,加上多模態(tài)語(yǔ)義對(duì)齊、交錯(cuò)式生成和一致性保持等優(yōu)勢(shì),使得用戶指令能夠得到快速響應(yīng)和迭代。
Nano Banana的沖擊波同樣撼動(dòng)了資本市場(chǎng)與產(chǎn)業(yè)端的神經(jīng)。谷歌發(fā)布Nano Banana當(dāng)日,創(chuàng)意軟件巨頭Adobe的股價(jià)應(yīng)聲下跌約2%。比即時(shí)波動(dòng)更關(guān)鍵的是長(zhǎng)線走勢(shì),Adobe的股價(jià)在過(guò)去一年累計(jì)下跌了35%,主要原因之一就是極速發(fā)展的人工智能帶來(lái)的顛覆性變革。
隨著網(wǎng)友不斷解鎖Nano Banana的新玩法,危機(jī)感傳導(dǎo)至更多職業(yè)領(lǐng)域。一位剛?cè)胄械碾娚谭b模特表示,原本中小商家聘請(qǐng)模特拍攝每天成本約1500元/人,上架時(shí)間至少以周為單位,而Nano Banana能將這一整套流程壓縮至分鐘級(jí)。電商攝影師、后期修圖師乃至視覺(jué)設(shè)計(jì)師也紛紛在社媒平臺(tái)發(fā)帖調(diào)侃稱眼看著被AI搶了飯碗。
然而,歷史上的技術(shù)革命告訴我們,創(chuàng)新從未單純地使某個(gè)行業(yè)消亡。舊生產(chǎn)關(guān)系被顛覆的同時(shí),必然伴隨產(chǎn)業(yè)重構(gòu)和新職業(yè)的誕生。模特行業(yè)不會(huì)消亡,但將走向分化,“批量平替”需求勢(shì)必會(huì)被AI取代,但只有人類才能表現(xiàn)出的“故事性”與“情感細(xì)節(jié)”,始終是市場(chǎng)的稀缺資源。商業(yè)攝影師、修圖師和設(shè)計(jì)師的角色也在被重塑,他們的核心價(jià)值不再局限于操控相機(jī)或軟件,而是延展到審美判斷、敘事構(gòu)思和情緒引導(dǎo),以及最關(guān)鍵的新能力:駕馭AI實(shí)現(xiàn)創(chuàng)作意圖。
對(duì)于Adobe在內(nèi)的工具型平臺(tái)而言,其在AI時(shí)代的價(jià)值在于提供“最后一公里”服務(wù)。互聯(lián)網(wǎng)用戶對(duì)于圖像和文字生成的需求千人千面且龐大碎片化,通用AI模型很難提供端到端的完美解決方案。因此,Adobe等平臺(tái)開(kāi)始接入第三方基礎(chǔ)大模型,并基于自身的數(shù)據(jù)與資源進(jìn)行后期訓(xùn)練,最終打造出更貼合用戶需求、更專業(yè)的AI落地產(chǎn)品。
這場(chǎng)技術(shù)浪潮并非一場(chǎng)零和游戲。Nano Banana的出現(xiàn)加速了產(chǎn)業(yè)洗牌,但同時(shí)也在打開(kāi)新的機(jī)會(huì)窗口。無(wú)論是創(chuàng)作者、設(shè)計(jì)師還是企業(yè),真正的挑戰(zhàn)并非如何抵擋AI,而是如何找到與之協(xié)作的路徑。工業(yè)革命時(shí)期的機(jī)器擴(kuò)展了人類的肌肉力量,如今的生成式AI則在延展人類的想象力和表達(dá)力。或許我們正在進(jìn)入一個(gè)全新的內(nèi)容創(chuàng)作階段,在這里,人與AI并非對(duì)立的兩極,而是互為補(bǔ)充的伙伴關(guān)系。