DeepMind,谷歌旗下的AI研究巨頭,近期推出了一款名為Gemini Robotics On-Device的新模型,這款模型屬于視覺-語言-行動(VLA)基礎模型范疇,專為在機器人硬件上本地運行而設計。該模型的特點在于其低延遲推理能力,以及僅需50次演示即可針對特定任務進行微調(diào)的高效性。
作為Gemini Robotics家族系列的最新成員,Gemini Robotics On-Device首次實現(xiàn)了模型的微調(diào)功能。這對于那些因延遲問題或網(wǎng)絡連接限制而需要在本地運行的機器人應用來說,無疑是一個巨大的福音。該模型能夠遵循自然語言指令,并通過視覺感知來識別和推理環(huán)境中的物體。DeepMind在雙臂Aloha機器人上對該模型進行了訓練,并在其他多個機器人平臺上進行了測試,結(jié)果顯示,它能夠在新硬件上成功處理復雜任務。
DeepMind強調(diào),Gemini Robotics On-Device的推出,標志著在提升機器人模型的易用性和適應性方面邁出了重要一步。這款本地解決方案將有助于解決機器人社區(qū)面臨的延遲和連接性挑戰(zhàn)。Gemini Robotics SDK的發(fā)布將進一步加速創(chuàng)新,使開發(fā)者能夠根據(jù)自己的特定需求調(diào)整模型。DeepMind鼓勵感興趣的開發(fā)者通過可信測試程序注冊,以獲取模型和SDK的訪問權(quán)限。
回顧今年早些時候,DeepMind首次介紹了Gemini Robotics家族系列。該系列基于谷歌的Gemini 2.0大型語言模型(LLMs),并增加了一個用于物理行動的輸出模態(tài)。除了這些模型外,DeepMind還發(fā)布了多個基準測試,包括用于評估機器人安全機制的ASIMOV基準測試和用于測量視覺推理能力的具身推理問答(ERQA)評估數(shù)據(jù)集。這些基準測試為機器人領(lǐng)域的研究和發(fā)展提供了重要的參考。
在測試過程中,DeepMind展示了其模型快速適應新任務的能力。對于包括準備食物和玩牌在內(nèi)的7種不同任務,他們通過對模型進行最多100次演示來進行微調(diào)。結(jié)果顯示,平均而言,使用他們的模型,機器人成功完成任務的時間超過了60%,擊敗了當前最佳的本地VLA模型。值得注意的是,Gemini Robotics模型的離線版本表現(xiàn)更為出色,成功率接近80%。
在Hacker News上關(guān)于Gemini Robotics On-Device的討論中,一位用戶表示了對VLAs前景的樂觀態(tài)度。他認為,VLAs有望成為機器人領(lǐng)域的“ChatGPT時刻”,即實現(xiàn)重大突破。多模態(tài)LLMs已經(jīng)內(nèi)置了對圖像和文本的大量理解,而VLAs則是這些模型的微調(diào)版本,用于輸出可以驅(qū)動機器人的特定指令序列。這位用戶還指出,雖然目前大家主要關(guān)注機器人手臂的物體操縱能力,但這種方法同樣適用于其他任何任務。例如,通過微調(diào),一臺智能割草機就能理解“草坪”、“割草”等指令,并避免破壞路徑上的玩具。
目前,Gemini Robotics On-Device尚未廣泛可用,但感興趣的開發(fā)者可以注冊等待名單以獲取更新信息。同時,DeepMind的網(wǎng)站上還提供了一個與Gemini Robotics On-Device相關(guān)的模型——Gemini Robotics-ER的互動演示。Gemini Robotics SDK也可以在GitHub上找到,供開發(fā)者下載和使用。