我們正處在一個(gè)由AI驅(qū)動(dòng)的“文藝復(fù)興2.0”時(shí)代。從ChatGPT的吉卜力創(chuàng)意熱潮到Veo3生成的爆款短視頻,AI似乎有媲美甚至超越人類的創(chuàng)造力。
我們一直以為,這種能力的覺(jué)醒源于更龐大的數(shù)據(jù)集、更復(fù)雜的算法和對(duì)人類世界的完美模仿。我們?cè)鴪?jiān)信,通往更強(qiáng)創(chuàng)造力的道路,是用天量的數(shù)據(jù)“喂養(yǎng)”出一個(gè)靈感涌現(xiàn)不絕的“創(chuàng)新之神”。
但如果真相恰恰相反呢?如果AI的創(chuàng)造力并非源于其“無(wú)所不知”,而是源于其“一知半解”?如果那些我們一直試圖修復(fù)的“技術(shù)缺陷”,恰恰是點(diǎn)燃其創(chuàng)意火花的秘密引擎呢?
最近,一篇發(fā)表在《Quanta Magazine》上的重磅研究,顛覆了我的認(rèn)知。斯坦福大學(xué)的研究者梅森·坎布(Mason Kamb)和蘇里亞·甘古利(Surya Ganguli)的研究成果表明,AI的創(chuàng)造力并非某種高深莫測(cè)的“涌現(xiàn)智能”,而是一個(gè)令人意外的、由“不完美”設(shè)計(jì)所催生的必然結(jié)果。
揭開(kāi)創(chuàng)意的面紗:所謂的“靈感涌現(xiàn)”只是美麗的誤會(huì)
長(zhǎng)期以來(lái),當(dāng)我們看到AI生成了一幅“宇航員在巴洛克風(fēng)格的宮殿里騎馬”的圖像時(shí),我們傾向于認(rèn)為AI“理解”了宇航員、馬和巴洛克風(fēng)格,并像人類藝術(shù)家一樣將它們創(chuàng)造性地結(jié)合起來(lái)。這是一種令人欣慰的擬人化想象,但研究表明,這是一個(gè)美麗的誤會(huì)。
真相是,以擴(kuò)散模型(Diffusion Models)為代表的生成式AI,其創(chuàng)造力的核心并非來(lái)自對(duì)概念的“高階理解”,而是源于其架構(gòu)中兩個(gè)看似“缺陷”的底層約束。這種對(duì)全局的“無(wú)知”,恰恰讓AI擺脫了人類思維中的一種經(jīng)典枷鎖——“功能固著”(Functional fixedness)。
功能固著是一種人類有而AI沒(méi)有的認(rèn)知偏誤,是指人們知道了一些事物的固定的作用和功能之后,就會(huì)習(xí)慣性的認(rèn)為這些事物就是用來(lái)干這些事情,而忽視了這些事物的其他方面的功能。
在著名心理學(xué)家卡爾·鄧克爾(Karl Duncker)的“蠟燭問(wèn)題”實(shí)驗(yàn)中,人們很難想到用裝圖釘?shù)暮凶觼?lái)做燭臺(tái),因?yàn)槲覀儗?duì)“盒子”的完整知識(shí)(它是容器)限制了想象力。AI則沒(méi)有這種“知識(shí)的詛咒”,它不“理解”盒子,只“看到”其可以支撐物體的局部屬性,因此這種“無(wú)知”反而成全了它的創(chuàng)造力。
AI不是一個(gè)全知全能的畫家,更像一個(gè)技藝高超的馬賽克藝術(shù)家,他雖然看不見(jiàn)整幅壁畫的全貌,但憑借手中有限的彩色瓦片和一套嚴(yán)格的拼接規(guī)則,卻能創(chuàng)造出令人驚嘆的全新圖案。
AI創(chuàng)造力的“黃金鐐銬”:兩大基本原則
那么,這兩副給AI戴上,卻反而讓它舞姿更美的“黃金鐐銬”究竟是什么?
第一副鐐銬:局部性(Locality)。這指的是AI模型在處理信息時(shí),并不是像我們一樣“縱覽全局”,而是一次只能聚焦于一個(gè)極小的圖像區(qū)塊(patch)。它像一個(gè)透過(guò)鎖孔看世界的觀察者,視野極其有限。
AI不知道一只完整的貓是什么樣的,但它對(duì)“貓的毛發(fā)紋理”、“貓耳朵的尖銳輪廓”、“貓眼睛的反光”這些局部特征了如指掌。這種“視野缺陷”迫使它在生成圖像時(shí),無(wú)法直接復(fù)制一整只記憶中的貓,而必須將無(wú)數(shù)個(gè)它學(xué)到的“局部碎片”重新組合。
第二副鐐銬:平移等變性(Translational Equivariance)。這聽(tīng)起來(lái)很專業(yè),但原理卻很直觀。它是一套保證“結(jié)構(gòu)一致性”的鐵律。簡(jiǎn)單來(lái)說(shuō),如果模型在一個(gè)局部區(qū)塊學(xué)會(huì)了“磚墻”的紋理,那么當(dāng)它需要在圖像的另一個(gè)位置畫磚墻時(shí),它會(huì)運(yùn)用完全相同的規(guī)則和結(jié)構(gòu)。這確保了AI生成的世界不會(huì)陷入混亂。
這一思想與AI先驅(qū)、圖靈獎(jiǎng)得主楊立昆大力倡導(dǎo)的“世界模型”(World Models)不謀而合。 兩者的核心都在于,讓AI學(xué)習(xí)這個(gè)世界可預(yù)測(cè)、可泛化的基本規(guī)律,而不是去死記硬背無(wú)窮無(wú)盡的表象。正是這種對(duì)底層規(guī)則的遵循,讓AI的“拼貼”顯得真實(shí)可信。
當(dāng)“局部性”將世界打碎成無(wú)限重組的可能,而“平移等變性”則像一根無(wú)形的線,將這些碎片以一種和諧、連貫、符合邏輯的方式縫合起來(lái),創(chuàng)造力的奇跡便誕生了。
無(wú)獨(dú)有偶,近年來(lái)AI研究者們開(kāi)發(fā)的“等變局部評(píng)分”(Equivariant Local Score, ELS)機(jī),正是一個(gè)只優(yōu)化這兩個(gè)核心原則的簡(jiǎn)化數(shù)學(xué)模型,它竟然能高度復(fù)現(xiàn)復(fù)雜擴(kuò)散模型的輸出,這再次證明了——約束,而非自由,才是AI創(chuàng)造力的真正源泉。
化“限制”為“催化劑”:系統(tǒng)性提升AI創(chuàng)新力的3個(gè)方法
理解了AI創(chuàng)造力的根本原理,我們提升AI創(chuàng)新能力的方向就變得豁然開(kāi)朗。我們不再是盲目地?cái)U(kuò)大模型、堆砌數(shù)據(jù),而是可以像一位熟練的工程師一樣,通過(guò)“設(shè)計(jì)約束”來(lái)主動(dòng)引導(dǎo)和激發(fā)AI的創(chuàng)造潛力。
這種“擁抱限制”的哲學(xué),在人類的創(chuàng)新史上早已屢見(jiàn)不鮮。 史蒂夫·喬布斯畢生信奉“至繁歸于至簡(jiǎn)(Simplicity is the ultimate sophistication)”,他對(duì)iPhone只保留一個(gè)Home鍵的極致約束,恰恰成就了一代產(chǎn)品的革命性體驗(yàn)。
同樣,在AI的世界里,我們也可以通過(guò)以下方法,將限制化為創(chuàng)新的催化劑:
方法一:設(shè)計(jì)“不完美”的架構(gòu)。 未來(lái)的AI模型設(shè)計(jì),重點(diǎn)可能不再是單純地追求“更大更強(qiáng)”,而是要戰(zhàn)略性地構(gòu)建具有特定“創(chuàng)造性缺陷”的架構(gòu)。我們可以設(shè)計(jì)出在不同維度上具有不同“局部性”視野的模型,或者引入更多有趣的“等變性”規(guī)則(如旋轉(zhuǎn)、縮放等),就像給樂(lè)高玩家提供不同形狀和功能的積木,讓他們能搭建出更富想象力的作品。
方法二:駕馭數(shù)據(jù)“信息差”。 如果我們想讓AI畫出更有創(chuàng)意的椅子,或許我們不應(yīng)該只給它看成千上萬(wàn)張椅子的照片。我們可以嘗試一種“信息差”訓(xùn)練法:給模型看無(wú)數(shù)物體的局部紋理(木頭、金屬、織物),再給它看無(wú)數(shù)種結(jié)構(gòu)(四條腿的、單腿的、懸空的),但就是不給它看一張完整的“椅子”。這將迫使模型在其“局部知識(shí)庫(kù)”中進(jìn)行前所未有的探索和組合,從而“發(fā)明”出我們從未見(jiàn)過(guò)的椅子設(shè)計(jì)。
方法三:將提示工程提升為“約束的藝術(shù)”。 當(dāng)我們向AI輸入“一只由水晶構(gòu)成的蝴蝶,棲息在熔巖流上”時(shí),我們正是在讓模型在嚴(yán)格的約束下(水晶質(zhì)感+蝴蝶結(jié)構(gòu)+熔巖環(huán)境),去完成一次前所未有的“創(chuàng)作越獄”。
這讓人想起了傳奇音樂(lè)家布萊恩·伊諾(Brian Eno)著名的“傾斜策略(Oblique Strategies)”卡牌。 當(dāng)創(chuàng)作陷入僵局時(shí),他會(huì)抽出一張寫有“只用一個(gè)音符”或“重復(fù)一個(gè)動(dòng)作”這類指令的卡牌,通過(guò)這種人為的限制來(lái)打破思維定勢(shì),激發(fā)全新的靈感。
這一方法也讓提示詞的意義變得更加深刻。一個(gè)好的提示詞,本質(zhì)上就是在施加一種巧妙的“創(chuàng)造性約束”。
擁抱“不完美”,我們面臨什么問(wèn)題?
對(duì)AI創(chuàng)造力的研究和探索,或許能讓我們反思對(duì)AI“完美”復(fù)現(xiàn)人腦的執(zhí)迷,轉(zhuǎn)而善用AI的“不完美”。我們手中的創(chuàng)新鑰匙,不再是無(wú)窮無(wú)盡的數(shù)據(jù)和算力,而是設(shè)計(jì)“智慧約束”的能力。
這也引發(fā)了兩個(gè)更深層次的問(wèn)題:
既然約束是創(chuàng)造力的引擎,那么是否存在一種“最優(yōu)約束”的尺度?太多的約束會(huì)扼殺創(chuàng)意,太少則會(huì)導(dǎo)致混亂,那個(gè)激發(fā)最大創(chuàng)新的“黃金分割點(diǎn)”在哪里?
如果AI的創(chuàng)造力源于一種與人類截然不同的“認(rèn)知范式”,那么追求讓AI像人一樣思考的通用人工智能(AGI)道路,是否從一開(kāi)始就走偏了?
或許這些將是未來(lái)AI領(lǐng)域的重點(diǎn)研究方向。
往期精彩:
AI時(shí)代,重新理解高效能人士的七個(gè)習(xí)慣
深度·諾獎(jiǎng)巨著《國(guó)家為什么會(huì)失敗》給AI時(shí)代的啟示
人的這項(xiàng)能力,AI難以企及
那些被AI替代的人
AI最先取代的不是你,而是你的好友
用AI開(kāi)“一人公司”真的適合你嗎?
元宇宙已死,AI當(dāng)立?