在上海浦東張江科學(xué)會堂,一場聚焦于人工智能領(lǐng)域的盛會——智譜開放平臺產(chǎn)業(yè)生態(tài)大會于近日拉開帷幕。會上,智譜公司宣布了一項重大進(jìn)展,即正式推出并開源了新一代視覺語言模型GLM-4.1V-Thinking。
值得注意的是,在此次大會上,智譜還迎來了浦東創(chuàng)投集團(tuán)和張江集團(tuán)的戰(zhàn)略投資,總額高達(dá)10億元,并已經(jīng)順利完成了首筆資金的交割。三方還宣布將攜手共建人工智能新型基礎(chǔ)設(shè)施,以進(jìn)一步推動AI技術(shù)的創(chuàng)新與應(yīng)用。
GLM-4.1V-Thinking作為智譜公司精心打造的新一代視覺語言模型,其亮點在于支持圖像、視頻、文檔等多種模態(tài)的輸入,專為應(yīng)對復(fù)雜的認(rèn)知任務(wù)而設(shè)計。據(jù)官方介紹,該模型在GLM-4V架構(gòu)的基礎(chǔ)上進(jìn)行了創(chuàng)新,引入了“思維鏈推理機(jī)制”,并采用“課程采樣強(qiáng)化學(xué)習(xí)策略”,從而顯著提升了模型的跨模態(tài)因果推理能力和穩(wěn)定性。
尤為GLM-4.1V-Thinking的輕量版——GLM-4.1V-9B-Thinking,在保持模型參數(shù)控制在10B級別的同時,實現(xiàn)了性能上的突破。在MMStar、MMMU-Pro、ChartQAPro、OSWorld等28項權(quán)威評測中,該模型取得了23項10B級模型的最佳成績,其中18項成績甚至持平或超越了參數(shù)量高達(dá)72B的Qwen-2.5-VL模型。這一表現(xiàn)充分展示了小體積模型在性能上的巨大潛力。
GLM-4.1V-9B-Thinking模型在多個任務(wù)中展現(xiàn)出了高度的通用性和穩(wěn)健性。例如,在圖文理解方面,它能夠精準(zhǔn)識別并綜合分析圖像與文本信息;在數(shù)學(xué)與科學(xué)推理方面,它支持復(fù)雜題解、多步演繹與公式理解;在視頻理解方面,它具備時序分析與事件邏輯建模能力;在GUI與網(wǎng)頁智能體任務(wù)中,它能夠理解界面結(jié)構(gòu),輔助自動化操作;在視覺錨定與實體定位方面,它實現(xiàn)了語言與圖像區(qū)域的精準(zhǔn)對齊,提升了人機(jī)交互的可控性。
為了讓更多研究者能夠探索視覺語言模型的能力邊界,GLM-4.1V-9B-Thinking已在Hugging Face與魔搭社區(qū)同步開源。其中,GLM-4.1V-9B-Base作為基座模型,為研究者提供了基礎(chǔ)的研究平臺;而GLM-4.1V-9B-Thinking則具備深度思考和推理能力,是正常使用和體驗的首選模型。