GLM-4.7在SWE-bench、Terminal Bench 2.0、τ2-Bench、HLE等十余項(xiàng)智能體與推理評(píng)測(cè)中,全面對(duì)齊甚至部分超越GPT-5.1與Claude Sonnet 4.5。而在訂閱門檻上,GLM-4.7堪比“價(jià)格屠夫”:每月最低20元即可使用Claude Pro三倍用量,主打一個(gè)“用得起”。從技術(shù)上線時(shí)間點(diǎn)來(lái)看,這也是智譜在IPO前夜放出的關(guān)鍵一招。那么究竟效果如何?我們也第一時(shí)間在Z.ai上進(jìn)行了實(shí)測(cè)。GitHub:https://github.com/zai-org/GLM-4.5Hugging Face:huggingface.co/zai-org/GLM-4.7魔搭社區(qū):https://modelscope.cn/models/ZhipuAI/GLM-4.701.從“寫代碼”到“管任務(wù)”,技術(shù)指標(biāo)全線飄紅
根據(jù)Code Arena面向全球開(kāi)發(fā)者的專業(yè)編碼盲測(cè)榜單,GLM-4.7在Web開(kāi)發(fā)方向排名第六,成為目前全球排名最高的開(kāi)源模型,超過(guò)GPT-5.2與Claude Sonnet 4.5,位列國(guó)產(chǎn)模型第一。
從更細(xì)致的基準(zhǔn)測(cè)試來(lái)看,GLM-4.7最明顯的升級(jí)集中在三個(gè)方面:代碼、工具調(diào)用和推理能力。
在代碼能力上,它在SWE-bench?Verified拿到73.8%,LiveCodeBench?V6達(dá)到84.9%,整體水平已經(jīng)對(duì)齊Claude Sonnet 4.5,在開(kāi)源模型中處于第一梯隊(duì)。在更偏復(fù)雜推理的任務(wù)中,HLE(“人類最后的考試”)成績(jī)提升尤為明顯,工具輔助條件下達(dá)到42.8%,相比GLM?4.6提升超過(guò)12個(gè)百分點(diǎn),也超過(guò)了GPT?5.1 High。工具調(diào)用能力同樣是這一代的重點(diǎn)方向,在τ2?Bench中,GLM?4.7拿到87.4%的成績(jī),BrowseComp在開(kāi)啟上下文管理后提升至67.5%,在多輪網(wǎng)頁(yè)任務(wù)和交互式工具調(diào)用場(chǎng)景中表現(xiàn)穩(wěn)定,基本坐實(shí)了其“智能體向”模型的定位。與這些分?jǐn)?shù)變化對(duì)應(yīng)的,是其內(nèi)部思考機(jī)制的調(diào)整。GLM?4.7在此前“交錯(cuò)思考”的基礎(chǔ)上,引入了保留式思考與輪級(jí)思考控制:模型會(huì)在每次生成和工具調(diào)用前先進(jìn)行推理,并在多輪任務(wù)中自動(dòng)保留已有的思考結(jié)果,而不是反復(fù)從零開(kāi)始推導(dǎo)。同時(shí),開(kāi)發(fā)者也可以按輪次決定是否啟用推理過(guò)程,在簡(jiǎn)單請(qǐng)求中降低時(shí)延,在復(fù)雜任務(wù)中換取穩(wěn)定性。這種設(shè)計(jì)更強(qiáng)調(diào)長(zhǎng)任務(wù)執(zhí)行中的一致性和可控性,也正是這些機(jī)制變化,支撐了它在代碼智能體、終端任務(wù)和工具協(xié)同類基準(zhǔn)上的整體躍升。模型還針對(duì)前端美學(xué)、長(zhǎng)文本穩(wěn)定性、網(wǎng)頁(yè)生成結(jié)構(gòu)等細(xì)節(jié)做了優(yōu)化。02.100個(gè)真實(shí)任務(wù)勝率更高多模態(tài)技能調(diào)度能力打通開(kāi)發(fā)閉環(huán)為了驗(yàn)證GLM?4.7在實(shí)際開(kāi)發(fā)任務(wù)中的表現(xiàn),智譜對(duì)比測(cè)試了100個(gè)真實(shí)編程任務(wù),覆蓋前端開(kāi)發(fā)、后端邏輯以及指令遵循等三個(gè)核心方向。結(jié)果顯示,在前端任務(wù)中,GLM?4.7相較4.6版本勝率提升至64.6%,在指令遵循場(chǎng)景中也達(dá)到58.3%。在最具工程復(fù)雜度的后端方向,其勝率也穩(wěn)定在46.7%。除了單點(diǎn)生成能力,GLM?4.7還進(jìn)一步強(qiáng)化了多技能聯(lián)動(dòng)能力。GLM-4.7已在Z.ai上線了全棧技能環(huán)境,它已接入全新的Skills模塊,支持調(diào)用ASR語(yǔ)音識(shí)別、TTS語(yǔ)音合成、GLM?4.6V視覺(jué)模型等多個(gè)模塊進(jìn)行統(tǒng)一調(diào)度。在多模態(tài)任務(wù)中,它既能規(guī)劃路徑、又能執(zhí)行動(dòng)作,工具之間的“調(diào)度邏輯”打通了。03.實(shí)測(cè):從3D圣誕樹(shù)到Switch小游戲前端效果直追Gemini 3
本次我們通過(guò)Z.ai平臺(tái)測(cè)試了GLM-4.7的三類互動(dòng)任務(wù),來(lái)看看其在3D控制、UI生成與前端代碼實(shí)現(xiàn)上的表現(xiàn)。場(chǎng)景1:3D圣誕樹(shù)炸開(kāi)成照片墻,用手勢(shì)就能控制收放旋轉(zhuǎn)這是本次測(cè)試中最具沉浸感的交互體驗(yàn)之一。GLM-4.7輸出了一整段可直接運(yùn)行的HTML代碼,包含完整的3D場(chǎng)景構(gòu)建、粒子交互、手勢(shì)識(shí)別與UI反饋邏輯。初始畫面是一棵由5000多個(gè)粒子構(gòu)成的立體圣誕樹(shù),頂部懸著一顆帶有輝光效果的星星。移動(dòng)鼠標(biāo)時(shí),粒子會(huì)自然產(chǎn)生斥力波紋,整體呈現(xiàn)出流動(dòng)的視覺(jué)響應(yīng)。進(jìn)入交互環(huán)節(jié)后,系統(tǒng)會(huì)調(diào)用攝像頭,識(shí)別用戶的手勢(shì)動(dòng)作。當(dāng)用戶張開(kāi)手掌,整棵圣誕樹(shù)會(huì)突然炸開(kāi),轉(zhuǎn)變?yōu)橐蝗腋≡诳罩械恼掌瑝Γ掌耘牧⒌玫男问江h(huán)繞排布。如果繼續(xù)左右移動(dòng)手掌,照片墻會(huì)跟隨旋轉(zhuǎn)。而當(dāng)再次握拳時(shí),所有元素會(huì)收攏歸位,照片墻重新收縮為圣誕樹(shù)形態(tài),形成完整的一輪開(kāi)合動(dòng)畫。GLM-4.7還在代碼中集成了性能優(yōu)化機(jī)制,例如使用InstancedMesh來(lái)渲染大量粒子,整個(gè)頁(yè)面在不依賴構(gòu)建工具的前提下依然保持了高幀率與良好流暢度。場(chǎng)景2:復(fù)刻iOS主界面,圖標(biāo)齊了,界面能點(diǎn)我們輸入提示詞“1:1復(fù)刻iOS系統(tǒng)”,GLM-4.7就做出了一個(gè)模仿iOS的主頁(yè)面:Safari、Siri、健康、錢包等圖標(biāo)均可點(diǎn)擊。日歷、天氣、計(jì)算器等功能頁(yè)可以進(jìn)入交互,計(jì)算器還能進(jìn)行基礎(chǔ)運(yùn)算輸入。雖然和最新款iOS比起來(lái)還有細(xì)節(jié)差距,但整體體驗(yàn)是流暢的、能用的,圖標(biāo)風(fēng)格和顏色搭配也有基本審美。場(chǎng)景3:Switch格斗小游戲,手柄界面+按鍵聯(lián)動(dòng)我們還測(cè)試了一個(gè)雙人格斗游戲任務(wù),GLM-4.7生成了一套完整的雙人對(duì)戰(zhàn)界面,整體風(fēng)格高度還原Switch主機(jī)的Joy-Con手柄配色和布局:左側(cè)是藍(lán)色手柄,右側(cè)是紅色手柄,中間是游戲主屏幕。進(jìn)入游戲后,畫面中出現(xiàn)了兩個(gè)火柴人角色,一個(gè)為藍(lán)色玩家,一個(gè)為紅色敵人,頭頂有動(dòng)態(tài)血條顯示。UI部分在左上角呈現(xiàn)當(dāng)前波次與敵人數(shù)量等信息。在操作體驗(yàn)上,左手玩家可以通過(guò)鍵盤A/D控制移動(dòng),J攻擊,K跳躍,右手玩家則使用U/I/O三鍵分別釋放技能。雖然尚未實(shí)現(xiàn)打擊判定與技能特效,但整體界面結(jié)構(gòu)、角色邏輯和按鍵響應(yīng)已經(jīng)非常完整,具備真實(shí)游戲的框架感。整個(gè)游戲內(nèi)置了節(jié)奏感很強(qiáng)的格斗BGM。可見(jiàn),GLM-4.7在UI構(gòu)建、鍵盤監(jiān)聽(tīng)、動(dòng)畫驅(qū)動(dòng)等前端關(guān)鍵模塊中還是具備一定的可用性與穩(wěn)定性。04.結(jié)語(yǔ):國(guó)產(chǎn)SOTA模型正值猛進(jìn)階段
從三大基準(zhǔn)維度到真實(shí)任務(wù)測(cè)試,GLM-4.7已躋身全球開(kāi)源模型第一梯隊(duì),成為國(guó)產(chǎn)模型在Agent工具線上的關(guān)鍵突破點(diǎn)。無(wú)論是開(kāi)源代碼在全球社區(qū)中已被下載超6000萬(wàn)次,還是付費(fèi)API使用量長(zhǎng)期居于OpenRouter全球前十,都說(shuō)明它已逐步進(jìn)入開(kāi)發(fā)者的實(shí)際工具列表。而在GLM-4.7上線的節(jié)點(diǎn)背后,是智譜即將登陸港交所的背景,也是國(guó)產(chǎn)大模型企業(yè)從科研模型、開(kāi)源生態(tài)向“真實(shí)使用”與“市場(chǎng)驗(yàn)證”過(guò)渡的一個(gè)縮影。在這個(gè)新階段,開(kāi)源國(guó)產(chǎn)模型正從“對(duì)標(biāo)國(guó)際”邁向“領(lǐng)跑、實(shí)用”,而GLM-4.7就是這個(gè)進(jìn)程中的一個(gè)關(guān)鍵代表。











