在上海浦東張江科學(xué)會(huì)堂,一場聚焦于人工智能前沿技術(shù)的盛會(huì)——智譜開放平臺(tái)產(chǎn)業(yè)生態(tài)大會(huì)圓滿舉行。會(huì)上,智譜公司揭曉了一項(xiàng)重大科研成果:新一代視覺語言模型GLM-4.1V-Thinking正式面世,并向全球開發(fā)者開源。
此次大會(huì)不僅見證了GLM-4.1V-Thinking的發(fā)布,還傳來了一則融資喜訊。智譜公司宣布成功獲得浦東創(chuàng)投集團(tuán)與張江集團(tuán)聯(lián)合投資的10億元人民幣戰(zhàn)略資金,首筆資金交割已順利完成。同時(shí),三方攜手啟動(dòng)了共建人工智能新型基礎(chǔ)設(shè)施的合作項(xiàng)目,標(biāo)志著智譜在人工智能領(lǐng)域邁出了堅(jiān)實(shí)的一步。
GLM-4.1V-Thinking,作為智譜公司傾力打造的視覺語言大模型,具備處理圖像、視頻、文檔等多模態(tài)輸入的能力,專為應(yīng)對復(fù)雜認(rèn)知任務(wù)而生。該模型在GLM-4V架構(gòu)的基礎(chǔ)上,創(chuàng)新性引入了“思維鏈推理機(jī)制”,結(jié)合“課程采樣強(qiáng)化學(xué)習(xí)策略”,顯著提升了跨模態(tài)因果推理的準(zhǔn)確性和穩(wěn)定性。
尤為GLM-4.1V-Thinking的輕量版——GLM-4.1V-9B-Thinking,在保持模型體積小巧的同時(shí),展現(xiàn)出了驚人的性能。其參數(shù)規(guī)模控制在10B級別,卻在28項(xiàng)權(quán)威評測中取得了23項(xiàng)10B級模型的最佳成績,其中18項(xiàng)甚至超越了參數(shù)量高達(dá)72B的Qwen-2.5-VL模型。這一成就,無疑證明了小體積模型在極限性能方面的巨大潛力。
GLM-4.1V-9B-Thinking在多個(gè)應(yīng)用場景中均表現(xiàn)出色,彰顯了其高度的通用性和穩(wěn)健性。在圖文理解方面,它能夠精準(zhǔn)識(shí)別并綜合分析圖像與文本信息;在數(shù)學(xué)與科學(xué)推理領(lǐng)域,它支持復(fù)雜題解、多步演繹與公式理解;在視頻理解方面,它具備時(shí)序分析與事件邏輯建模能力;在GUI與網(wǎng)頁智能體任務(wù)中,它能理解界面結(jié)構(gòu),輔助自動(dòng)化操作;在視覺錨定與實(shí)體定位方面,它實(shí)現(xiàn)了語言與圖像區(qū)域的精準(zhǔn)對齊,提升了人機(jī)交互的可控性。
目前,GLM-4.1V-9B-Thinking已在Hugging Face與魔搭社區(qū)同步開源,包括GLM-4.1V-9B-Base基座模型和具備深度思考與推理能力的GLM-4.1V-9B-Thinking模型。這一舉措旨在幫助更多研究者探索視覺語言模型的能力邊界,推動(dòng)人工智能技術(shù)的創(chuàng)新與發(fā)展。