復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)與人工智能學(xué)院的研究團(tuán)隊(duì)在機(jī)器人交互領(lǐng)域取得重大突破,開(kāi)發(fā)出全球首個(gè)具備主動(dòng)澄清能力的機(jī)器人系統(tǒng)。這項(xiàng)被命名為"Ask-to-Clarify"的創(chuàng)新框架,使機(jī)器人能夠像人類一樣通過(guò)對(duì)話消除指令歧義,相關(guān)研究成果已在國(guó)際知名預(yù)印本平臺(tái)arXiv發(fā)表。
傳統(tǒng)機(jī)器人系統(tǒng)在處理模糊指令時(shí)存在根本性缺陷。當(dāng)用戶發(fā)出"把水果拿給我"這類指令時(shí),現(xiàn)有機(jī)器人要么隨機(jī)選擇,要么因無(wú)法決策而停止工作。研究團(tuán)隊(duì)通過(guò)深入分析發(fā)現(xiàn),這種困境源于單向執(zhí)行模式——機(jī)器人缺乏與人類的交互反饋機(jī)制,無(wú)法區(qū)分指令的明確程度,更無(wú)法主動(dòng)尋求澄清。
新框架創(chuàng)造性地構(gòu)建了雙組件協(xié)作體系。其中"合作模塊"基于先進(jìn)視覺(jué)語(yǔ)言模型,負(fù)責(zé)理解場(chǎng)景、識(shí)別歧義并生成澄清問(wèn)題;"行動(dòng)模塊"采用擴(kuò)散模型技術(shù),專門處理精確動(dòng)作指令的生成。兩個(gè)模塊通過(guò)獨(dú)特的"連接模塊"實(shí)現(xiàn)無(wú)縫銜接,該模塊能根據(jù)對(duì)話結(jié)果動(dòng)態(tài)調(diào)整視覺(jué)關(guān)注重點(diǎn),確保動(dòng)作生成獲得最相關(guān)的信息。
系統(tǒng)工作流程模擬人類處理歧義的自然方式。當(dāng)接收到模糊指令時(shí),合作模塊首先分析場(chǎng)景,識(shí)別出指令中的不確定性,然后生成針對(duì)性問(wèn)題。例如面對(duì)"把水果放到盤子上"的指令,系統(tǒng)會(huì)依次詢問(wèn):"是蘋(píng)果嗎?""是橙子嗎?"直到獲得明確答復(fù)。確認(rèn)指令后,行動(dòng)模塊立即生成精確的機(jī)械臂動(dòng)作序列,完成端到端的任務(wù)執(zhí)行。
訓(xùn)練過(guò)程采用創(chuàng)新的"兩階段知識(shí)隔離"策略。第一階段專注訓(xùn)練對(duì)話能力,系統(tǒng)通過(guò)海量歧義解決對(duì)話數(shù)據(jù),掌握識(shí)別歧義、提出問(wèn)題及推導(dǎo)正確指令的技能。第二階段凍結(jié)對(duì)話模塊,專門訓(xùn)練動(dòng)作生成能力,確保系統(tǒng)在保持溝通技能的同時(shí)獲得精確執(zhí)行能力。這種分階段訓(xùn)練有效避免了多任務(wù)學(xué)習(xí)的相互干擾。
研究團(tuán)隊(duì)設(shè)計(jì)了包含8項(xiàng)真實(shí)場(chǎng)景任務(wù)的測(cè)試體系,涵蓋放置、傾倒、堆疊等家庭常見(jiàn)操作。測(cè)試結(jié)果顯示,新系統(tǒng)在所有任務(wù)中的表現(xiàn)均顯著優(yōu)于現(xiàn)有最先進(jìn)系統(tǒng)。在放置任務(wù)中成功率達(dá)95%,傾倒任務(wù)達(dá)98.3%,堆疊任務(wù)達(dá)90%。特別值得注意的是,這些測(cè)試均采用模糊指令,而對(duì)比系統(tǒng)則直接獲得明確指令,這種"不公平"對(duì)比更凸顯了新框架的優(yōu)勢(shì)。
系統(tǒng)的環(huán)境適應(yīng)性通過(guò)多項(xiàng)壓力測(cè)試得到驗(yàn)證。在光線不足條件下,傳統(tǒng)系統(tǒng)成功率從57.5%驟降至22.5%,而新框架僅從90%降至80%。面對(duì)視覺(jué)干擾物時(shí),新框架保持80%的成功率,遠(yuǎn)超傳統(tǒng)系統(tǒng)的65%。這種魯棒性源于知識(shí)隔離訓(xùn)練策略,使系統(tǒng)保留了通用的視覺(jué)理解能力。
技術(shù)實(shí)現(xiàn)的關(guān)鍵在于智能信號(hào)檢測(cè)系統(tǒng)。該系統(tǒng)通過(guò)分析合作模塊輸出的信號(hào)標(biāo)記,自動(dòng)判斷何時(shí)需要澄清、何時(shí)可以執(zhí)行。當(dāng)檢測(cè)到"指令模糊"信號(hào)時(shí),系統(tǒng)進(jìn)入對(duì)話模式;獲得"指令明確"信號(hào)后,立即提取準(zhǔn)確指令并轉(zhuǎn)移控制權(quán)。這種無(wú)需額外訓(xùn)練的判斷機(jī)制,確保了系統(tǒng)在不同模式間的無(wú)縫切換。
研究團(tuán)隊(duì)深入分析了傳統(tǒng)系統(tǒng)失敗的原因。采用層次化架構(gòu)的基準(zhǔn)系統(tǒng)雖使用擴(kuò)散模型,但因缺乏有效連接機(jī)制,導(dǎo)致不同指令產(chǎn)生的條件信號(hào)高度相似。例如面對(duì)"放蘋(píng)果""放桃子""放橙子"等指令時(shí),生成的條件幾乎完全相同,自然無(wú)法正確執(zhí)行。而新框架通過(guò)連接模塊的調(diào)節(jié),能為每個(gè)任務(wù)生成獨(dú)特條件信號(hào)。
在"存在"與"缺失"場(chǎng)景測(cè)試中,系統(tǒng)展現(xiàn)出智能判斷能力。當(dāng)目標(biāo)物體在視野內(nèi)時(shí),系統(tǒng)通過(guò)對(duì)話確認(rèn)后執(zhí)行任務(wù);當(dāng)目標(biāo)缺失時(shí),系統(tǒng)會(huì)禮貌拒絕執(zhí)行。這種判斷基于完整的對(duì)話歷史記錄,確保了交互的連貫性和邏輯性,避免了重復(fù)詢問(wèn)或前后矛盾的問(wèn)題。
這項(xiàng)突破為機(jī)器人技術(shù)發(fā)展開(kāi)辟了新方向。它不再追求單純的任務(wù)執(zhí)行精度,而是致力于構(gòu)建更自然的人機(jī)協(xié)作關(guān)系。通過(guò)引入雙向交互機(jī)制,機(jī)器人從被動(dòng)執(zhí)行者轉(zhuǎn)變?yōu)槟軌蛑鲃?dòng)溝通的合作伙伴。這種轉(zhuǎn)變不僅提高了任務(wù)完成率,更重要的是改變了人們對(duì)機(jī)器人能力的認(rèn)知。
研究團(tuán)隊(duì)指出,當(dāng)前系統(tǒng)在連接模塊方面仍有改進(jìn)空間。目前采用的特征調(diào)制方法相對(duì)簡(jiǎn)單,未來(lái)可探索更復(fù)雜的注意力機(jī)制或?qū)Ρ葘W(xué)習(xí)方法。這種開(kāi)放的研究態(tài)度為后續(xù)技術(shù)發(fā)展預(yù)留了充足空間,也為機(jī)器人技術(shù)的評(píng)價(jià)標(biāo)準(zhǔn)提供了新維度——除了任務(wù)完成率,交互質(zhì)量和澄清效率等指標(biāo)同樣重要。
在實(shí)際應(yīng)用層面,這項(xiàng)技術(shù)為家庭服務(wù)機(jī)器人的實(shí)用化掃清了關(guān)鍵障礙。具備澄清對(duì)話能力的機(jī)器人將更貼近人類交流習(xí)慣,用戶無(wú)需刻意使用精確語(yǔ)言,只需自然表達(dá)需求即可。這種改變將顯著提升用戶體驗(yàn),推動(dòng)機(jī)器人技術(shù)在智能家居、醫(yī)療輔助、教育陪伴等領(lǐng)域的廣泛應(yīng)用。











