在上海浦東張江科學(xué)會(huì)堂,一場(chǎng)聚焦于人工智能前沿技術(shù)的盛會(huì)——智譜開放平臺(tái)產(chǎn)業(yè)生態(tài)大會(huì)圓滿舉行。會(huì)上,智譜公司震撼發(fā)布了其最新科研成果,一款名為GLM-4.1V-Thinking的新一代通用視覺(jué)語(yǔ)言模型。
本次大會(huì)不僅見(jiàn)證了技術(shù)的革新,還迎來(lái)了資本的重磅加持。智譜公司宣布,浦東創(chuàng)投集團(tuán)與張江集團(tuán)將共同向其注入總額高達(dá)10億元的戰(zhàn)略投資,且首筆資金已順利交割。三方攜手啟動(dòng)了一項(xiàng)旨在構(gòu)建人工智能新型基礎(chǔ)設(shè)施的合作項(xiàng)目,為人工智能的未來(lái)發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。
GLM-4.1V-Thinking模型是智譜公司精心打造的一款多模態(tài)輸入通用推理型大模型,專為應(yīng)對(duì)復(fù)雜認(rèn)知任務(wù)而生。它不僅能夠處理圖像、視頻、文檔等多種數(shù)據(jù)類型,還在GLM-4V架構(gòu)的基礎(chǔ)上融入了創(chuàng)新的“思維鏈推理機(jī)制”,通過(guò)“課程采樣強(qiáng)化學(xué)習(xí)策略”,顯著提升了模型的跨模態(tài)因果推理能力和運(yùn)行穩(wěn)定性。
值得注意的是,GLM-4.1V-Thinking的輕量版——GLM-4.1V-9B-Thinking,在保持模型參數(shù)控制在10B級(jí)別的同時(shí),實(shí)現(xiàn)了性能上的重大突破。在MMStar、MMMU-Pro、ChartQAPro、OSWorld等28項(xiàng)權(quán)威評(píng)測(cè)中,該模型取得了23項(xiàng)10B級(jí)模型的最佳成績(jī),其中有18項(xiàng)表現(xiàn)甚至與參數(shù)量高達(dá)72B的Qwen-2.5-VL相當(dāng)或更優(yōu),充分證明了其在小體積下展現(xiàn)出的極限性能潛力。
GLM-4.1V-9B-Thinking模型在多個(gè)任務(wù)領(lǐng)域均展現(xiàn)出卓越的通用性和穩(wěn)健性。在圖文理解方面,它能夠精準(zhǔn)識(shí)別并綜合分析圖像與文本信息;在數(shù)學(xué)與科學(xué)推理領(lǐng)域,它支持復(fù)雜題解、多步演繹與公式理解;在視頻理解方面,它具備時(shí)序分析與事件邏輯建模能力;在GUI與網(wǎng)頁(yè)智能體任務(wù)中,它能夠理解界面結(jié)構(gòu),輔助自動(dòng)化操作;在視覺(jué)錨定與實(shí)體定位方面,它實(shí)現(xiàn)了語(yǔ)言與圖像區(qū)域的精準(zhǔn)對(duì)齊,極大地提升了人機(jī)交互的可控性。
為了讓更多研究者能夠探索視覺(jué)語(yǔ)言模型的能力邊界,GLM-4.1V-9B-Thinking已在Hugging Face與魔搭社區(qū)同步開源。開源的版本包括GLM-4.1V-9B-Base基座模型和具備深度思考和推理能力的GLM-4.1V-9B-Thinking模型,用戶可正常使用和體驗(yàn)后者。