日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

強(qiáng)化學(xué)習(xí)專家Sergey Levine:機(jī)器人數(shù)據(jù)訓(xùn)練,真實世界數(shù)據(jù)不可或缺

   時間:2025-07-22 16:29:34 來源:機(jī)器之心Pro編輯:快訊團(tuán)隊 IP:北京 發(fā)表評論無障礙通道
 

在人工智能領(lǐng)域,特別是大型模型訓(xùn)練方面,挑戰(zhàn)重重。隨著模型規(guī)模和應(yīng)用領(lǐng)域的擴(kuò)展,數(shù)據(jù)需求呈爆炸式增長。大型語言模型(LLM)依賴海量文本數(shù)據(jù),視覺語言模型(VLM)則需要結(jié)合文本與圖像數(shù)據(jù),而在機(jī)器人領(lǐng)域,視覺-語言-行動模型(VLA)更是迫切需要大量真實世界的機(jī)器人執(zhí)行任務(wù)數(shù)據(jù)。

在邁向通用人工智能(AGI)的道路上,Agent被視為重要過渡。然而,訓(xùn)練Agent所需的帶有行動標(biāo)簽的真實交互數(shù)據(jù),成本高昂,遠(yuǎn)超從網(wǎng)頁獲取文本和圖像數(shù)據(jù)的費(fèi)用。因此,研究者們一直在探索替代方案,以期降低數(shù)據(jù)獲取成本,同時保持大模型訓(xùn)練的成效。

加州大學(xué)伯克利分校的副教授Sergey Levine,同時也是Physical Intelligence的聯(lián)合創(chuàng)始人,在強(qiáng)化學(xué)習(xí)領(lǐng)域享有盛譽(yù)。他撰寫了一篇文章,深入分析了訓(xùn)練大模型時的數(shù)據(jù)組合問題。Levine指出,盡管人們渴望找到一種既能降低成本又能保持訓(xùn)練成果的完美方案,但現(xiàn)實往往不盡如人意,如同“叉勺”般難以在通用場景下發(fā)揮最佳效用。

在機(jī)器人智能體領(lǐng)域,尤其是VLA模型中,研究者們嘗試了多種替代方案,以低成本數(shù)據(jù)替代昂貴的真實交互數(shù)據(jù)。這些方案包括仿真、基于人類視頻的訓(xùn)練以及使用手持式夾爪設(shè)備等。盡管這些方法在特定場景下取得了成功,但從長遠(yuǎn)來看,它們可能削弱了大規(guī)模學(xué)習(xí)模型的泛化能力和潛力。

仿真作為一種經(jīng)典策略,通過構(gòu)建虛擬環(huán)境來訓(xùn)練機(jī)器人,減少了對真實世界數(shù)據(jù)的依賴。然而,最有效的仿真并非追求對現(xiàn)實的高度還原,而是故意引入環(huán)境變化以提高機(jī)器人的魯棒性。這種方法雖然有效,但人為設(shè)定的環(huán)境限制了機(jī)器人可能遇到的情境。

基于人類視頻訓(xùn)練機(jī)器人的方法,則需要在人體與機(jī)器人之間建立對應(yīng)關(guān)系,跨越動力學(xué)和外觀上的差異。這種映射方式預(yù)設(shè)了任務(wù)完成策略,限制了機(jī)器人的靈活性。

手持式夾爪設(shè)備方法通過物理手段建立人機(jī)之間的映射,讓人類使用手持設(shè)備模仿機(jī)器人夾爪完成任務(wù)。雖然這種方法頗具吸引力,因為它要求參與者以類似機(jī)器人的方式執(zhí)行任務(wù),但它同樣隱含了一套動作設(shè)定前提。

Levine強(qiáng)調(diào),隨著模型能力的提升,它們區(qū)分替代數(shù)據(jù)域與真實世界目標(biāo)域的能力也在增強(qiáng)。這導(dǎo)致行為策略的交集區(qū)域不斷縮小,任何試圖隱藏信息以緩解領(lǐng)域差異的做法,最終都會削弱模型的能力。

他進(jìn)一步指出,當(dāng)我們用替代數(shù)據(jù)訓(xùn)練機(jī)器人基礎(chǔ)模型時,模型在面對新任務(wù)時往往會試圖預(yù)測“人類會如何解決這個問題”,而不是預(yù)測“機(jī)器人能如何高效完成這個任務(wù)”的策略。這背離了基礎(chǔ)模型的核心優(yōu)勢——廣泛通用性和強(qiáng)泛化能力。

除了替代數(shù)據(jù)外,人工智能研究中還存在其他“叉勺”現(xiàn)象,如結(jié)合手工設(shè)計與學(xué)習(xí)組件的混合系統(tǒng)、利用人為設(shè)定的約束來限制自主學(xué)習(xí)系統(tǒng)不良行為的方法等。這些方法都試圖在享受大規(guī)模機(jī)器學(xué)習(xí)優(yōu)勢的同時,規(guī)避其高數(shù)據(jù)需求或繁瑣目標(biāo)設(shè)計的代價。然而,它們也都面臨同樣的根本性缺陷:需要人為地將“我們以為的思考方式”編碼進(jìn)系統(tǒng)中,這最終將成為系統(tǒng)性能的瓶頸。

因此,盡管“叉勺”方案在某些特定場景下具有吸引力,但它們往往限制了學(xué)習(xí)系統(tǒng)的擴(kuò)展性和靈活性。在人工智能領(lǐng)域,真實世界數(shù)據(jù)仍然是不可或缺的寶貴資源。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 五大连池市| 云浮市| 彰化县| 资源县| 平昌县| 旬阳县| 安吉县| 苏尼特右旗| 蒙自县| 万宁市| 大石桥市| 建宁县| 荣昌县| 高阳县| 定边县| 濮阳市| 康马县| 安丘市| 湟源县| 淄博市| 寻乌县| 同仁县| 永泰县| 日喀则市| 岳普湖县| 会宁县| 盘锦市| 涿鹿县| 潞西市| 乌海市| 洞头县| 成安县| 光山县| 县级市| 崇州市| 睢宁县| 溆浦县| 临泉县| 平舆县| 北辰区| 静宁县|