國產開源大模型GLM-4.7近日正式上線并開放源代碼,在多項國際權威評測中展現出強勁實力,成為全球開源模型領域備受矚目的新力量。該模型在智能體與推理能力評測中表現突出,與GPT-5.1、Claude Sonnet 4.5等國際頂尖模型同臺競技時,不僅全面對齊部分指標,更在多個維度實現超越,標志著國產大模型在技術突破上邁出關鍵一步。
在代碼能力方面,GLM-4.7的突破尤為顯著。根據專業編碼評測平臺Code Arena的全球開發者盲測數據,該模型在Web開發方向排名第六,成為當前開源模型中表現最優的國產方案,甚至超越了GPT-5.2與Claude Sonnet 4.5。具體到細分基準測試,其在SWE-bench-Verified中取得73.8%的成績,LiveCodeBench-V6更達到84.9%,整體水平與Claude Sonnet 4.5持平,穩居開源領域第一梯隊。這些數據背后,是模型對復雜代碼邏輯的深度理解能力,以及在真實開發場景中的高效生成能力。
推理能力的提升是GLM-4.7的另一大亮點。在被譽為“人類最后考試”的HLE評測中,模型在工具輔助條件下取得42.8%的成績,較前代版本提升超過12個百分點,甚至超越了GPT-5.1 High版本。工具調用能力同樣表現亮眼,在τ2-Bench中斬獲87.4%的高分,BrowseComp在開啟上下文管理后提升至67.5%,展現出在多輪網頁任務和交互式工具調用場景中的穩定性。這些突破得益于模型內部思考機制的革新——通過引入保留式思考與輪級思考控制,模型能在多輪任務中自動保留已有推理結果,避免重復推導,同時允許開發者根據任務復雜度動態調整推理過程,在效率與穩定性間取得平衡。
技術升級不僅體現在分數上,更在實際應用中得到驗證。智譜團隊通過100個真實編程任務測試發現,GLM-4.7在前端開發、后端邏輯和指令遵循三大核心方向均有顯著提升。前端任務勝率從4.6版本的52.1%躍升至64.6%,指令遵循場景勝率達58.3%,后端復雜任務勝率穩定在46.7%。更值得關注的是,模型在Z.ai平臺上線了全棧技能環境,通過全新Skills模塊實現了ASR語音識別、TTS語音合成、GLM-4.6V視覺模型等多模態技能的統一調度。這種“技能聯動”能力使模型在處理復雜任務時,既能規劃路徑又能執行動作,工具間的調度邏輯形成閉環,顯著提升了開發效率。
實際測試場景進一步印證了模型的實用性。在3D控制任務中,GLM-4.7生成的HTML代碼構建出由5000多個粒子組成的立體圣誕樹,支持手勢識別與UI反饋:用戶張開手掌時,圣誕樹會炸開為懸浮照片墻,握拳則重新收縮為樹形,整個過程伴隨流暢的動畫效果與性能優化機制。在UI生成測試中,模型根據“1:1復刻iOS系統”的提示,生成了包含可點擊圖標、可交互功能頁的完整主界面,雖細節與最新iOS存在差距,但整體體驗流暢,圖標風格與顏色搭配符合基礎審美。更令人驚喜的是,在雙人格斗游戲任務中,模型不僅還原了Switch手柄的配色布局,還構建了包含角色移動、攻擊、跳躍等基礎操作的完整對戰框架,甚至內置了節奏感強的格斗BGM,展現出在前端關鍵模塊的可用性與穩定性。
從技術評測到真實場景,GLM-4.7的突破并非孤立事件。其開源代碼在全球社區的下載量已突破6000萬次,付費API使用量長期位居OpenRouter全球前十,這些數據表明,模型正從實驗室走向開發者的實際工具列表。當前,國產大模型企業正經歷從科研模型、開源生態向“真實使用”與“市場驗證”的關鍵轉型,GLM-4.7的上線恰逢智譜沖刺港交所上市的節點,成為這一轉型進程的生動注腳。隨著技術迭代與生態完善,國產開源模型正從“對標國際”向“領跑實用”邁進,GLM-4.7的實踐為這一進程提供了重要參考。









