商湯科技攜手南洋理工大學S-Lab實驗室,正式推出并開源全新多模態模型架構NEO。該架構通過底層技術革新,首次實現視覺與語言信息的深度統一,在模型性能、數據效率及任務適應性方面取得突破性進展,為多模態大模型發展開辟了新路徑。
在數據效率維度,NEO展現出顯著優勢。傳統高性能視覺語言模型通常需要數十億級圖像文本對進行訓練,而NEO僅需3.9億組數據即可達到同等水平,數據量僅為行業標桿模型的十分之一。這種突破得益于其創新的架構設計,無需依賴外部視覺編碼器即可直接處理原始圖像信號,在視覺問答、圖文匹配等任務中,性能已比肩Qwen2-VL、InternVL3等模塊化旗艦模型。
權威評測數據印證了NEO的領先性。在MMMU、MMB、MMStar等跨模態基準測試中,該模型在視覺理解、語義推理等核心指標上全面超越原生視覺語言模型(VLM),特別是在涉及復雜空間關系和細微圖像特征的任務中表現尤為突出。其"精度無損"的原生架構設計,有效解決了模塊化模型因模態割裂導致的信息損耗問題。
針對現有技術瓶頸,研究團隊重構了多模態處理范式。傳統方案多采用"視覺編碼器+語言模型"的拼接架構,這種設計雖能處理基礎圖文任務,但存在本質缺陷:視覺信號需經離散化轉換才能輸入語言模型,導致圖像細節丟失;模態交互僅發生在數據層面,無法實現深層語義融合。這些問題在需要精細空間推理的場景中尤為明顯,例如解讀建筑圖紙或醫療影像時,模型常因結構理解不足而出現錯誤。
NEO的創新體現在三個技術維度:在注意力機制層面,模型創新性地整合文本的自回歸注意力與圖像的雙向注意力,使空間關系建模效率提升40%;位置編碼系統采用動態幾何編碼技術,可自適應不同圖像分辨率;語義映射模塊通過連續向量空間構建,徹底摒棄傳統離散化token處理方式。這些改進使模型能直接處理原始像素信號,無需中間轉換步驟。
兩大核心技術構成NEO的突破基礎。原生圖塊嵌入技術(PEL)通過可學習的卷積核直接對像素進行連續建模,相比傳統離散化方法,能保留97%以上的圖像細節信息。原生多頭注意力機制則突破模態壁壘,在統一架構下實現文本序列的時序建模與圖像空間的結構建模,這種設計使模型在處理圖文混合內容時,推理速度提升2.3倍,同時保持98%以上的語義一致性。
該成果已通過開源方式向學術界和產業界開放,包含完整訓練代碼、預訓練模型及技術文檔。研究團隊表示,NEO架構為多模態大模型提供了新的設計范式,其高效的數據利用能力和統一的模態處理機制,將推動自動駕駛、智能醫療、數字內容生成等領域的實際應用發展。目前已有多個國際團隊基于該架構開展延伸研究,探索在遙感監測、工業檢測等場景的落地可能。









