日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

長文本挑戰:1萬tokens成新門檻,18款大模型性能集體下滑

   時間:2025-07-17 16:56:16 來源:量子位編輯:快訊團隊 IP:北京 發表評論無障礙通道

近期,一項針對大型語言模型(LLM)的研究揭示了一個驚人的發現:當輸入文本的長度擴展到1萬個tokens時,多個主流大模型的性能出現了顯著下滑,宛如“智商”驟降。這一現象并非均勻發生,而是在某些特定節點上,模型的準確率出現了斷崖式下跌。

以Claude Sonnet 4為例,在處理1000個tokens后,其準確率從90%一路下滑至60%。而GPT-4.1和Gemini 2.5 Flash則表現出先下降后放緩再下降的趨勢。當上下文長度達到1萬個tokens時,這些模型的準確率普遍降至50%左右。

這意味著,大模型在閱讀同一本書的不同頁面時,其“智商”可能會截然不同。更令人驚訝的是,不同大模型在“閱讀這本書”的過程中,出現性能驟降的頁面也各不相同。例如,GPT-4.1可能在讀到第10頁時就已“失智”,而Claude或許能堅持到第100頁。

這項研究由Chroma團隊完成,他們利用升級版的“大海撈針”(NIAH)測試方法,對包括GPT-4.1、Claude 4、Gemini 2.5和Qwen3等在內的18個主流大模型進行了測試。測試結果顯示,隨著輸入長度的增加,模型的性能呈現出越來越差的趨勢。

研究還首次系統性地揭示了輸入長度對模型性能的非均勻影響。實驗表明,不同模型的性能可能在某一特定的tokens長度上,準確率發生驟降。這一發現得到了網友的廣泛認可,因為以往人們雖然遇到過輸入長度增加時大模型性能不佳的情況,但并未有人深入探究過這個問題。

為了更深入地了解輸入長度對模型性能的影響,研究人員設計了四項對照實驗。這些實驗基于保持任務復雜度不變,僅改變輸入長度的核心原則,旨在探究語義關聯性、干擾信息、文本結構等因素對模型性能的影響。

實驗結果顯示,輸入長度是性能衰減的核心變量。無論任務簡單與否,模型在處理長文本時的可靠性都會下降。語義關聯性、干擾信息和文本結構等因素會進一步加劇模型的性能衰減。例如,在針-問題相似度實驗中,低相似度組的模型性能衰減更為顯著;在干擾信息實驗中,即使單一干擾項也會導致模型性能低于基線,而多重干擾項會進一步加劇性能衰減。

不同模型對這些因素的敏感程度也存在差異。例如,Claude系列模型在不確定時傾向于棄權,表現出較低的幻覺率;而GPT系列模型則更可能生成自信但錯誤的答案,受干擾影響更明顯。Gemini和Qwen模型的表現則波動較大,易受干擾項數量和輸入長度的雙重影響。

這項研究不僅揭示了大型語言模型在處理長文本時的局限性,也為未來的研究提供了新的方向。研究人員建議,在構建LLM應用時,應給出明確、清晰的指令,并在收集到足夠的信息后保存上下文,以添加一個檢查點來提高模型的穩定性和可靠性。

Chroma團隊不僅致力于LLM長上下文處理領域的研究,還開發了一個開源的AI應用數據庫——Chroma。該數據庫旨在通過將知識和技能整合為大語言模型可調用的模塊,簡化LLM應用的構建過程。目前,Chroma計劃推出免費的技術預覽,并表示將100%專注于構建有價值的開源軟件。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 阳曲县| 三江| 都昌县| 鹤岗市| 临夏市| 武功县| 临沧市| 丹巴县| 江城| 前郭尔| 平山县| 临夏市| 崇义县| 和政县| 文化| 安吉县| 尉犁县| 大宁县| 从化市| 荆州市| 四平市| 阿图什市| 诏安县| 东源县| 义马市| 定边县| 儋州市| 雅安市| 康乐县| 龙井市| 涞源县| 五家渠市| 南阳市| 海城市| 武隆县| 柳河县| 五台县| 闽清县| 汉源县| 汶上县| 巫山县|