12 月 8 日消息,智譜 AI 今日官宣發布并開源 GLM-4.6V 系列多模態大模型,包括:
GLM-4.6V(106B-A12B):面向云端與高性能集群場景的基礎版;
GLM-4.6V-Flash(9B):面向本地部署與低延遲應用的輕量版。
作為 GLM 系列在多模態方向上的一次重要迭代,GLM-4.6V 將訓練時上下文窗口提升到 128k tokens,在視覺理解精度上達到同參數規模 SOTA,并首次在模型架構中將 Function Call(工具調用)能力原生融入視覺模型,打通從「視覺感知」到「可執行行動(Action)」的鏈路,為真實業務場景中的多模態 Agent 提供統一的技術底座。
在性能優化之外,GLM-4.6V 系列相較于 GLM-4.5V 降價 50%,API 調用價格低至輸入 1 元 / 百萬 tokens,輸出 3 元 / 百萬 tokens。
同時,GLM-4.6V-Flash 免費開放使用。
GLM-4.6V 即日起融入 GLM Coding Plan,針對用戶 8 大類場景定向開發了專用 MCP 工具,模型可自主調用最匹配的接口。
智譜 AI 介紹稱,傳統工具調用大多基于純文本,在面對圖像、視頻、復雜文檔等多模態內容時,需要多次中間轉換,帶來信息損失和工程復雜度。GLM-4.6V 從設計之初就圍繞「圖像即參數,結果即上下文」,構建了原生多模態工具調用能力:
輸入多模態:圖像、截圖、文檔頁面等可以直接作為工具參數,無需先轉為文字描述再解析,減少鏈路損耗。
輸出多模態:對于工具返回的統計圖表、渲染后網頁截圖、檢索到的商品圖片等結果,模型能夠再次進行視覺理解,將其納入后續推理鏈路。
模型原生支持基于視覺輸入的工具調用,完整打通從感知到理解到執行的閉環。這使得 GLM-4.6V 能夠應對圖文混排輸出、商品識別與好價推薦、以及輔助型 Agent 場景等更復雜的視覺任務。
GLM-4.6V 在 MMBench、MathVista、OCRBench 等 30+ 主流多模態評測基準上進行了驗證,較上一代模型取得顯著提升。在同等參數規模下,模型在多模態交互、邏輯推理和長上下文等關鍵能力上取得SOTA表現。其中,9B 版本的 GLM-4.6V-Flash 整體表現超過 Qwen3-VL-8B,106B 參數 12B 激活的 GLM-4.6V 表現比肩 2 倍參數量的 Qwen3-VL-235B。
智譜 AI 開放了 GLM-4.6V 的模型權重、推理代碼與示例工程,附開源地址如下:
GitHub:https://github.com/zai-org/GLM-V
Hugging Face:https://huggingface.co/collections/zai-org/glm-46v
魔搭社區:https://modelscope.cn/collections/GLM-46V-37fabc27818446











