近期,谷歌旗下的DeepMind團隊在機器人技術領域取得了重大突破。其最新研發的AI模型Genie 2,在構建可交互3D環境及加速機器人學習方面展現了前所未有的潛力。
DeepMind的聯合創始人兼首席執行官Demis Hassabis,在一檔知名節目中親自展示了這一創新技術。他強調,Genie 2能夠從單一的靜態圖像中,生成一個完整且可探索的3D虛擬世界,為AI代理和機器人提供了一個極為逼真的模擬環境。
在演示過程中,DeepMind的研究科學家Jack Parker-Holder選取了一張加州瀑布頂部的照片。通過Genie 2的處理,這張照片被轉化為了一個類似第一人稱視角的視頻游戲場景。用戶或AI代理可以在這個虛擬環境中自由移動,不僅能夠圍繞瀑布頂部的水池行走,還能夠探索原始照片中并未呈現的區域。
Hassabis指出,Genie 2的“世界模型”具備動態生成環境的能力,能夠模擬現實世界的物理特性。這一特性使得Genie 2不僅在游戲和視頻生成等娛樂領域具有廣泛應用前景,更重要的是,它為AI和機器人的訓練提供了一個高效且低成本的平臺。
傳統的機器人數據采集過程復雜且成本高昂,導致數據量有限且收集速度緩慢。而Genie 2所生成的模擬環境,能夠產生近乎無限的數據量。這意味著,機器人可以在虛擬世界中進行初步的學習,然后再通過少量的現實世界數據進行微調,從而大幅提高了訓練效率。
在另一個演示中,一個由AI控制的騎士角色在Genie 2生成的3D環境中自主完成了任務,如從多個門廊中選擇正確的路徑并爬上樓梯。Hassabis表示,這種技術將使機器人能夠在模擬環境中學習復雜的任務,如導航、物體交互和決策制定,從而顯著減少對現實世界數據的依賴。
Hassabis還透露,DeepMind正在探索利用谷歌地圖、谷歌地球和街景視圖等地理數據,進一步增強AI對現實世界的理解能力。這些數據將為AI提供豐富的現實世界背景,有助于機器人更好地適應真實環境。
Genie 2還能夠將靜態圖像(如街景照片或個人度假照片)轉化為交互式的3D場景。這一功能為機器人訓練和用戶體驗帶來了全新的可能性。
隨著技術的不斷發展,Hassabis預計,未來版本的Genie模型將能夠創建更加多樣化、復雜的虛擬世界。這將為機器人學習新技能、執行任務以及與人類和物體進行交互提供更加全面的支持。這一技術的突破,不僅有望推動機器人開發領域的革新,還可能在工業、醫療和探索等多個領域推動智能化應用的廣泛普及。