在無數(shù)玩家心中,《我的世界》(Minecraft)不僅僅是一款游戲,它是一個充滿無限可能的虛擬宇宙,是冒險與創(chuàng)造的搖籃。從夜幕下匆忙搭建的簡陋木屋,到精心復(fù)刻的校園與古老阿房宮,再到深邃礦道中對鉆石的無盡追尋,這片由方塊構(gòu)成的天地見證了無數(shù)玩家的夢想與努力。
然而,當(dāng)人工智能(AI)涉足這個充滿挑戰(zhàn)與驚喜的世界時,一切都變得不同尋常。AI能否像人類一樣,在這個沒有固定目標(biāo)、沒有預(yù)設(shè)玩法的開放世界中,找到屬于自己的生存之道,甚至挖掘到那閃耀的鉆石?
起初,人們并未將AI視為《我的世界》中的佼佼者。畢竟,在圍棋、Dota2等策略型游戲中,AI已經(jīng)大放異彩,但這些游戲的規(guī)則和目標(biāo)相對明確,AI只需計算出最優(yōu)解即可。而《我的世界》則截然不同,它的地圖隨機(jī)生成,每次進(jìn)入都是全新的挑戰(zhàn),玩家需要憑借直覺、經(jīng)驗和創(chuàng)造力去適應(yīng)環(huán)境。
然而,2019年,F(xiàn)acebook推出了CraftAssist Bot,讓AI能在游戲中執(zhí)行人類指令,如建造房屋、馴服動物等。同年,CMU、微軟、DeepMind等機(jī)構(gòu)也聯(lián)合發(fā)起了MineRL大賽,嘗試將互聯(lián)網(wǎng)視覺數(shù)據(jù)融入《我的世界》的技能學(xué)習(xí)中。這些嘗試,標(biāo)志著AI正式踏入這個充滿未知與挑戰(zhàn)的世界。
MineRL大賽的目標(biāo)很簡單,就是讓AI在游戲里成功挖到鉆石。但現(xiàn)實卻給研究人員帶來了沉重的打擊:900多個頂尖團(tuán)隊傾盡全力,竟沒有一個AI成功拿到鉆石。這些AI智能體在探索過程中,出現(xiàn)了許多令人啼笑皆非的錯誤,如只知道砍樹卻不懂得合成斧頭,或是一頭栽進(jìn)巖漿里,將角色活活燒死。
這些錯誤,恰恰揭示了AI在面對開放世界時的困境。它們不像人類那樣擁有豐富的常識和直覺,而是必須從零開始,一步步推導(dǎo)出世界的運(yùn)行規(guī)則。但這也正是《我的世界》的魅力所在:它考驗的不僅是操作技巧,還有對環(huán)境的理解、對資源的管理和對長遠(yuǎn)目標(biāo)的規(guī)劃。
隨著研究的深入,強(qiáng)化學(xué)習(xí)(Reinforcement Learning)逐漸成為AI在《我的世界》中取得突破的關(guān)鍵。強(qiáng)化學(xué)習(xí)讓AI像真正的小白玩家一樣,通過與環(huán)境不斷互動來獲得反饋。隨著時間的推移,AI逐漸學(xué)會了更有效地探索地圖、管理資源、打造裝備和執(zhí)行復(fù)雜任務(wù)。這種“適應(yīng)”能力,讓AI不再只會照本宣科,而是能根據(jù)環(huán)境做出靈活決策。
近年來,隨著大語言模型(LLM)如GPT-4的出現(xiàn),新的研究方向開始浮現(xiàn)。LLM能充當(dāng)“游戲智囊團(tuán)”,為AI在游戲世界中的行為提供更成熟的任務(wù)規(guī)劃和技能順序安排。這些研究讓AI從完全的游戲小白變成了擁有豐富游戲經(jīng)驗的玩家,它們既能統(tǒng)籌所需技能,又能反思游戲環(huán)境帶來的變化,從而一步步逼近最終目標(biāo)。
如今,AI在《我的世界》中的表現(xiàn)已經(jīng)取得了顯著進(jìn)步。騰訊AILab的“絕悟”在MineRL大賽中奪得冠軍,證明了AI能夠在這一開放世界游戲中取得優(yōu)異成績。而DeepMind的DreamerV3更是實現(xiàn)了近乎真正的自主探索,它沒有看任何人類數(shù)據(jù),完全靠自己摸索,僅用17天就完成了MineRL挑戰(zhàn),成為首個能“自力更生”挖到鉆石的AI。
AI在《我的世界》中的征程遠(yuǎn)未結(jié)束。DeepMind的最新研究再次刷新了認(rèn)知邊界,他們讓AI不僅能在游戲世界里生存下去,還能超越人類的操作水平。這一突破的關(guān)鍵在于基于模型的強(qiáng)化學(xué)習(xí)(MBRL)和Transformer世界模型(TWM)的結(jié)合。研究者通過一系列優(yōu)化措施,提高了世界模型的學(xué)習(xí)效率和策略優(yōu)化的效率,使AI能夠在有限交互數(shù)據(jù)下高效學(xué)習(xí),并掌握高效的生存之道。
在Craftax-classic環(huán)境的實驗中,這款A(yù)I不僅規(guī)劃、探索能力出眾,還在多人評測對戰(zhàn)中戰(zhàn)勝了人類高手,成為首個超越人類表現(xiàn)的智能體。這一結(jié)果證明,RL AI不僅能自主學(xué)習(xí),還能在高度復(fù)雜的環(huán)境中做出比人類更優(yōu)的決策。
從最初連最基本的生存都難以維持,到如今能夠自主規(guī)劃行動、高效地挖掘鉆石,AI在《我的世界》中取得的進(jìn)步令人驚嘆。它學(xué)到的不僅是“挖鉆石”的小技巧,更是如何理解世界、制定策略、應(yīng)對變化——這些真正的高層次智慧。或許有一天,AI真的能像人類一樣,在這個無限廣闊的像素世界里自由探索、創(chuàng)造,成為某個數(shù)字宇宙里的創(chuàng)世神。