滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

AI聊天時間長，可靠性竟大幅跳水？微軟研究揭秘

時間：2025-05-29 10:11:37 來源：ITBEAR編輯：快訊團隊 IP：北京 發表評論無障礙通道

一項由微軟與Salesforce攜手開展的深入研究發現，先進的人工智能語言模型在長時間對話中出現了顯著的可靠性下滑現象。用戶在逐步闡述需求的過程中，AI系統的表現平均下降了39%，這一結果對AI助手在現實場景中的應用發出了重要警示。

為了揭示這一性能缺陷，研究團隊設計了一種名為“分片”的測試方法，旨在模擬用戶在實際對話中逐步明確需求的過程。不同于傳統的一次性提供完整信息的方式，這種方法將任務拆解為多個步驟，更貼近用戶真實的使用場景。

測試的結果令人驚訝：AI模型的準確率從大約90%驟降至僅有51%。從小型開源模型Llama-3.1-8B到大型商業系統GPT-4o，所有15個參與測試的模型都遭遇了這種急劇的性能下降。

每個實驗都包含了90到120條指令，這些指令被細分為來自高質量數據集的較小子任務。即便是研究中的頂級模型，如Claude3.7Sonnet、Gemini2.5Pro和GPT-4.1，在多輪對話中的表現也比單輪對話差30%至40%。更令人擔憂的是，這些模型的一致性大幅降低，同一任務的最佳和最差表現之間的差異甚至可達50個百分點。

研究團隊識別出AI模型在多輪對話中的四大核心問題：過早下結論，即在掌握全部必要信息之前就匆忙做出判斷；過度依賴歷史信息，即使這些信息中存在錯誤；忽視對話過程中的重要信息；以及過度詳述，提供過于詳細的回答，導致對信息缺口的錯誤假設。

為了提高AI模型的可靠性，研究團隊嘗試了多種技術改進，包括降低模型溫度設定以減少隨機性，以及讓AI重復用戶指令。然而，這些優化措施并未產生明顯效果。研究還發現，改變每步提供的細節程度同樣無法解決問題。唯一可靠的解決方案是在對話開始時就提供所有必要的信息。

大型語言模型在多步驟、未明確指定的對話中經?！懊允А?，導致性能顯著下降。性能下降呈現出兩個層面：模型的基本能力僅下降了約16%，但不可靠性卻飆升了112%。在單輪任務中，能力更強的模型通常更可靠，但在多輪對話中，所有模型的可靠性都同樣糟糕，與其基線技能水平無關。

基于研究結果，專家提出了兩項實用的建議。對于用戶而言，當對話偏離主題時，與其試圖修正，不如重新開始新的對話。在對話結束時，要求AI總結所有需求，并以此作為新對話的起點。對于開發者而言，應更加重視多輪對話的可靠性開發，未來的模型需要在指令不完整的情況下保持穩定的表現，而非依賴特殊的提示技巧或參數調整。

這項研究揭示了AI助手在現實應用中面臨的重大挑戰。由于用戶通常通過漸進式的對話來表達需求，可靠性問題可能會嚴重影響用戶體驗和AI系統的實際價值。研究人員強調，可靠性與原始性能同樣重要，特別是對于需要處理復雜、多步驟交互的現實世界AI助手而言。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

Meta Facebook圖片優化功能引隱私擔憂：用戶相冊數據或用于AI訓練

用戶點擊“允許”后，Facebook 應用以相冊中的圖片為基礎，生成拼貼畫、回顧、AI 風格轉換或照片主題等創意。該媒體認為 Meta公司通過這些功能，誘使用戶分享其相冊圖片，以便于其收集數據，來訓練 …

06-28

“擎源”大模型發布：千億參數打造發電行業“超級大腦”

06-28

我國發布千億級發電行業大模型“擎源”，打造智慧發電“超級大腦”

06-28

華為深圳峰會發布“星云計劃”，探索數智化轉型新路徑

在智慧場景建設方面，深圳小梅沙度假區與華為合作，定制部署差異化無線AP解決方案，應用新一代高品質無線Wi-Fi，共建深圳小梅沙智慧文旅綜合體樣板點；深圳職業技術大學構建全場景Wi-Fi 7校園網絡，借助AI…

06-28

OpenAI拓寬算力來源，首次引入谷歌AI芯片支持ChatGPT

06-28

NVIDIA市值再創新高，分析師看好：目標股價250美元，市值或達6萬億

06-28

馬斯克宣布Grok 4大模型即將發布，或專為編程領域打造

【CNMO科技新聞】此前馬斯克曾在社交媒體宣布，將用新一代大模型來重寫人類知識庫，添加缺失信息，刪除錯誤內容，然后基于這個“純凈版”知識庫重新訓練模型。目前來看，這個全新的大模型或許很快就會和我們見面。 Gr…

06-28

馬斯克宣布Grok 4大模型即將面世，或專為編程打造

【CNMO科技新聞】此前馬斯克曾在社交媒體宣布，將用新一代大模型來重寫人類知識庫，添加缺失信息，刪除錯誤內容，然后基于這個“純凈版”知識庫重新訓練模型。目前來看，這個全新的大模型或許很快就會和我們見面。 Gr…

06-28

馬斯克宣布Grok 4大模型即將發布，或專為編程打造

06-28

智慧樓宇新紀元：生命港灣運維平臺，打造高效管理“智慧心臟”

No.3基礎功能概覽生命港灣綜合運維管理系統是智慧型監控、運維、調度管理的系統，基于新一代物聯網、人工智能、云計算和大數據分析技術可對用戶設備、環境等進行實時監測、預警、分析、溯源及管理，掌握用戶電氣、能源、…

06-28

華為星河AI數據中心網絡方案榮獲信通院五星認證，引領高算效時代

華為數據通信產品線數據中心網絡領域副總裁李建高（左）信通院云大所總工、ODCC新技術與測試工作組組長郭亮（右）此次測評基于算力強基智能計算數據中心網絡關鍵能力測試規范測評體系，經過嚴格評估，華為星河A…

06-28

聲通科技湖南布局新動作，新公司注冊資本達500萬

06-28

榮耀Magic V5大揭秘：青海湖刀片電池突破6100mAh，輕薄與續航并存

06-27

科技助力，智慧農業讓“靠天收”邁向“精準算"新時代

記者了解到，神農一號大模型是基于中國電信自主研發打造的星辰大模型，接入DeepSeek能力打造的行業大模型，核心功能包括農事助手、病蟲害圖片識別、農產品市場流通、智慧作業等，可以為主管部門、科研院所、涉農企…

06-27

星小辰終端智能體：AI重塑通話體驗，筑起通信安全新屏障

依托中國電信自研大模型和智能體平臺，星小辰智能體在AI通話、AI生活、AI辦公場景中，通過深度整合語音識別、語義理解、風險建模等能力為用戶帶來前所未有的智能體驗，尤其在通話反詐與智能代辦方面實現了突破式創新，…

06-27

點擊查看更多 +

全站最新

阿里云全球布局全棧AI，賦能中國企業“生而全球”新征程

蘋果調整歐盟App Store政策應對反壟斷，規避更重罰款

小米YU7首銷目標曝光：門店銷售人員72小時挑戰40臺銷量

文遠知行赴港上市秘密曝光，幕后“知情人士”身份成謎

一汽豐田遷津啟新程：研產銷一體化布局，智電時代加速前行

從豐田雙擎到比亞迪插混：體驗升級，見證國產車技術飛躍

熱門內容

本欄最新

Meta Facebook圖片優化功能引隱私擔憂：用戶相冊數據或用于AI訓練

“擎源”大模型發布：千億參數打造發電行業“超級大腦”

我國發布千億級發電行業大模型“擎源”，打造智慧發電“超級大腦”

華為深圳峰會發布“星云計劃”，探索數智化轉型新路徑

馬斯克宣布Grok 4大模型即將發布，或專為編程領域打造

馬斯克宣布Grok 4大模型即將面世，或專為編程打造

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

AI聊天時間長，可靠性竟大幅跳水？微軟研究揭秘

日本精品一区二区三区高清久久

AI聊天時間長，可靠性竟大幅跳水？微軟研究揭秘