在火山引擎的FORCE大會上,豆包團隊發布了全新基礎模型——豆包大模型1.8,引發業界廣泛關注。這款模型不再局限于傳統聊天功能,而是將目標直指通用型真實世界代理,試圖在AI應用領域開辟新賽道。
技術報告顯示,豆包團隊在基礎能力測試中展現出難得的務實態度。面對編程、數學推理等專項領域,新模型雖未超越谷歌Gemini 3-Pro等行業標桿,但在綜合應用能力測試中實現突破。特別是在代理能力評估環節,豆包在任務執行、信息檢索等實用場景中表現優異,甚至在英文資料搜集能力上超越多家國際競品。
實際測試環節驗證了模型的應用潛力。通過接入Agent TARS框架,豆包1.8成功完成多鄰國打卡、新聞摘要生成等復雜任務。在多鄰國測試中,模型不僅能自主導航至目標網站,還能通過屏幕識別完成聽力題作答,整個過程持續16分鐘且后臺運行不影響其他操作。這種多任務處理能力,標志著AI代理向實用化邁出關鍵一步。
技術突破體現在三大核心升級。首先是視覺理解能力的質的飛躍,新模型支持同時處理搜索、代碼執行和界面交互,形成完整的數據閉環。其次,記憶能力顯著增強,通過幀率優化可連續理解一小時內的屏幕操作,配合視頻分析工具實現精準內容定位。第三,指令理解能力突破傳統數據局限,在反直覺測試中展現出超越GPT的邏輯推理水平。
兼容性測試數據印證了模型的工程化優勢。在Trae、Claude Code等不同框架下,代碼通過率穩定在64.8%-72.9%區間,展現出跨平臺適應能力。這種特性使模型能無縫嵌入各類工作流,為企業級應用奠定基礎。實際案例中,模型已能準確識別電腦型號、查詢存儲空間等基礎信息,并通過命令行完成復雜操作。
市場數據印證了用戶需求轉向。豆包大模型日均處理量達50萬億tokens,較首發時激增417倍。這種爆發式增長背后,是各行業對實用型AI的迫切需求。從自動打卡到新聞摘要,從設備管理到數據分析,用戶期待AI能真正解決實際問題,而非停留于概念演示。
技術路線分歧日益顯現。不同廠商對AGI實現路徑存在顯著差異:Anthropic押注代碼生成,DeepSeek專注數學突破,谷歌強調視覺理解,而豆包選擇代理能力作為突破口。這種差異化競爭或將推動AI技術加速分化,形成多元發展格局。
當前AI發展呈現明顯實用化傾向。用戶不再滿足于模型的基礎能力比拼,更關注其在真實場景中的落地效果。豆包1.8的發布,恰好契合這種市場轉向,其通過強化代理能力構建的技術壁壘,可能成為打開企業級市場的關鍵鑰匙。隨著各家技術路線逐漸清晰,AI領域的軍備競賽正進入深水區。








