一項由微軟與Salesforce攜手開展的深入研究發現,先進的人工智能語言模型在長時間對話中出現了顯著的可靠性下滑現象。用戶在逐步闡述需求的過程中,AI系統的表現平均下降了39%,這一結果對AI助手在現實場景中的應用發出了重要警示。
為了揭示這一性能缺陷,研究團隊設計了一種名為“分片”的測試方法,旨在模擬用戶在實際對話中逐步明確需求的過程。不同于傳統的一次性提供完整信息的方式,這種方法將任務拆解為多個步驟,更貼近用戶真實的使用場景。
測試的結果令人驚訝:AI模型的準確率從大約90%驟降至僅有51%。從小型開源模型Llama-3.1-8B到大型商業系統GPT-4o,所有15個參與測試的模型都遭遇了這種急劇的性能下降。
每個實驗都包含了90到120條指令,這些指令被細分為來自高質量數據集的較小子任務。即便是研究中的頂級模型,如Claude3.7Sonnet、Gemini2.5Pro和GPT-4.1,在多輪對話中的表現也比單輪對話差30%至40%。更令人擔憂的是,這些模型的一致性大幅降低,同一任務的最佳和最差表現之間的差異甚至可達50個百分點。
研究團隊識別出AI模型在多輪對話中的四大核心問題:過早下結論,即在掌握全部必要信息之前就匆忙做出判斷;過度依賴歷史信息,即使這些信息中存在錯誤;忽視對話過程中的重要信息;以及過度詳述,提供過于詳細的回答,導致對信息缺口的錯誤假設。
為了提高AI模型的可靠性,研究團隊嘗試了多種技術改進,包括降低模型溫度設定以減少隨機性,以及讓AI重復用戶指令。然而,這些優化措施并未產生明顯效果。研究還發現,改變每步提供的細節程度同樣無法解決問題。唯一可靠的解決方案是在對話開始時就提供所有必要的信息。
大型語言模型在多步驟、未明確指定的對話中經?!懊允А?,導致性能顯著下降。性能下降呈現出兩個層面:模型的基本能力僅下降了約16%,但不可靠性卻飆升了112%。在單輪任務中,能力更強的模型通常更可靠,但在多輪對話中,所有模型的可靠性都同樣糟糕,與其基線技能水平無關。
基于研究結果,專家提出了兩項實用的建議。對于用戶而言,當對話偏離主題時,與其試圖修正,不如重新開始新的對話。在對話結束時,要求AI總結所有需求,并以此作為新對話的起點。對于開發者而言,應更加重視多輪對話的可靠性開發,未來的模型需要在指令不完整的情況下保持穩定的表現,而非依賴特殊的提示技巧或參數調整。
這項研究揭示了AI助手在現實應用中面臨的重大挑戰。由于用戶通常通過漸進式的對話來表達需求,可靠性問題可能會嚴重影響用戶體驗和AI系統的實際價值。研究人員強調,可靠性與原始性能同樣重要,特別是對于需要處理復雜、多步驟交互的現實世界AI助手而言。