上海AI實驗室聯合香港大學、牛津大學等頂尖機構,在圖形用戶界面(GUI)智能體訓練領域取得突破性進展。其開發的OS-Genesis系統通過"反向任務合成"技術,使AI智能體能夠像人類一樣自主探索軟件功能,相關研究成果已發表于arXiv平臺。這項創新為智能設備自動化操作開辟了新路徑。
傳統訓練方法依賴人工預設任務指令,如同為機器人編寫厚重的操作手冊。但面對快速迭代的移動應用和網頁服務,這種模式暴露出覆蓋面有限、成本高昂等缺陷。研究團隊提出的解決方案顛覆了這一范式:讓智能體在模擬環境中自由交互,通過分析操作前后的界面變化,自動推導出有意義的任務目標。
系統工作原理可類比為探險家繪制地圖。智能體首先在安卓模擬器和Chrome瀏覽器中隨機點擊、滑動,記錄每個操作引發的界面變化。這些"操作-結果"配對數據形成海量訓練樣本。例如,系統可能記錄到點擊日歷應用的"添加事件"按鈕后,界面跳轉到事件創建頁面,從而掌握創建日程的核心邏輯。
核心創新在于反向任務合成機制。系統通過雙層推理解析交互數據:低級指令生成階段識別具體操作意圖,如判斷點擊下拉菜單是為展開選項;高級指令生成階段則將多個低級操作組合為完整任務流程,如將"輸入用戶名-密碼-點擊登錄"識別為賬戶登錄行為。這種自下而上的推理方式,使系統能發現人工設計難以覆蓋的邊緣功能。
為確保數據質量,研究團隊設計了軌跡獎勵模型(TRM)。該模型采用1-5分評分制,從任務完成度和操作連貫性兩個維度評估訓練軌跡。不同于傳統二分法篩選,TRM保留部分成功案例中的有效操作,如同認可游泳學習中未達對岸但動作規范的嘗試。實驗顯示,TRM評分與人類專家判斷的一致性達0.813(移動任務)和0.798(網頁任務)。
訓練策略包含規劃與執行雙重目標。規劃訓練培養智能體分解任務的能力,要求其根據當前界面狀態預測下一步操作;執行訓練則強化操作精確性,確保能準確點擊按鈕、輸入文本。這種結合使智能體既具備戰略思維,又掌握戰術技能。在AndroidWorld測試中,經OS-Genesis訓練的模型任務成功率從9.82%提升至17.41%,顯著縮小與GPT-4o智能體的差距。
數據多樣性分析揭示了探索式學習的獨特價值。OS-Genesis生成的任務指令平均長度達18個單詞,接近人類編寫的18.7個單詞,遠超傳統方法的9-10個單詞。在操作軌跡層面,系統發現的解決方案多樣性是人工標注的2.3倍,包含許多人類不常使用的操作路徑。這種多樣性使智能體能更好適應未知環境。
工程實現面臨多重挑戰。研究團隊構建了支持24小時運行的自動化探索系統,處理應用崩潰、網絡異常等突發狀況。數據處理管道采用并行架構,每日處理數萬個交互三元組,并通過智能去重算法優化存儲。模型推理階段實施批處理優化,將計算成本降低40%。訓練過程采用加權采樣策略,確保高質量數據主導訓練同時保持多樣性。
在AndroidControl基準測試中,系統在833個應用上驗證了泛化能力。測試數據僅20個應用與訓練集重疊,但模型仍取得顯著性能提升。WebArena網頁環境測試進一步證明其跨領域適應性,使零樣本模型具備基礎操作能力,提升預訓練模型在電商購物、論壇發帖等復雜任務中的表現。
研究團隊坦言當前方法存在依賴專有模型、數據完整性等局限。例如任務執行模型的能力仍制約成功軌跡生成數量。但他們強調開放科學的重要性,已公開全部代碼、數據和模型檢查點。這種探索式學習框架為語音界面、虛擬現實等新興交互模式提供了技術儲備,有望推動AI從被動執行向主動學習轉型。