當(dāng)頂尖AI研究者紛紛警示“單純堆砌算力與數(shù)據(jù)難以為繼”時(shí),一場關(guān)于多模態(tài)大模型的架構(gòu)革命正在悄然發(fā)生。商湯科技聯(lián)合南洋理工大學(xué)等機(jī)構(gòu)推出的全球首個(gè)開源原生多模態(tài)架構(gòu)NEO,以顛覆性的設(shè)計(jì)理念在AI領(lǐng)域投下一枚重磅炸彈。這個(gè)以《黑客帝國》主角命名的新架構(gòu),用十分之一訓(xùn)練數(shù)據(jù)便在多項(xiàng)評(píng)測中比肩旗艦級(jí)模型,重新定義了多模態(tài)模型的構(gòu)建范式。
傳統(tǒng)多模態(tài)模型采用模塊化拼接方式,將視覺編碼器與語言模型通過投影層連接。這種“先分后合”的架構(gòu)導(dǎo)致三大技術(shù)瓶頸:訓(xùn)練流程復(fù)雜導(dǎo)致效率低下,視覺編碼器的固定分辨率限制對(duì)復(fù)雜場景的理解能力,表層映射難以實(shí)現(xiàn)視覺與語言的深層語義對(duì)齊。以圖表描述任務(wù)為例,現(xiàn)有模型常混淆圖例與數(shù)據(jù);在空間指令理解中,左右方位與數(shù)量判斷錯(cuò)誤率高達(dá)30%。這些缺陷暴露出模塊化架構(gòu)在處理細(xì)粒度視覺推理時(shí)的根本性局限。
NEO架構(gòu)的核心突破在于構(gòu)建視覺與語言共生的統(tǒng)一模型。研究團(tuán)隊(duì)摒棄模塊化思維,從第一性原理出發(fā)設(shè)計(jì)三大原生技術(shù):原生圖塊嵌入層通過兩層卷積神經(jīng)網(wǎng)絡(luò)直接處理像素,生成連續(xù)高保真視覺表征;原生三維旋轉(zhuǎn)位置編碼為圖像高度、寬度分配高頻編碼,為文本時(shí)間軸設(shè)計(jì)自適應(yīng)頻率,實(shí)現(xiàn)時(shí)空坐標(biāo)系的智能適配;原生多頭注意力機(jī)制讓文本采用因果注意力、圖像采用全雙向注意力,形成“左右腦協(xié)同”的推理模式。這些創(chuàng)新使模型能同時(shí)捕捉圖像紋理細(xì)節(jié)與文本長程依賴,在“貓?jiān)诤凶觾?nèi)外”等空間關(guān)系判斷中準(zhǔn)確率提升至92%。
配套的Pre-Buffer & Post-LLM雙階段訓(xùn)練策略解決了原生架構(gòu)訓(xùn)練難題。預(yù)訓(xùn)練初期將模型臨時(shí)劃分為視覺融合模塊與語言繼承模塊,前者在后者的引導(dǎo)下高效學(xué)習(xí)視覺知識(shí),逐步建立像素-詞語對(duì)齊。隨著訓(xùn)練深入,模塊邊界逐漸消失,最終形成端到端的統(tǒng)一模型。這種漸進(jìn)式融合策略既保留了預(yù)訓(xùn)練語言模型的強(qiáng)大能力,又實(shí)現(xiàn)了視覺知識(shí)的無損遷移,在3.9億圖像文本對(duì)的訓(xùn)練數(shù)據(jù)量下達(dá)到傳統(tǒng)模型十倍數(shù)據(jù)的效果。
實(shí)測數(shù)據(jù)顯示,NEO在MMMU多學(xué)科理解、MMBench綜合能力的等權(quán)威基準(zhǔn)測試中全面領(lǐng)先。在2B至8B參數(shù)規(guī)模的中小模型領(lǐng)域,其推理成本較同類模型降低65%,卻能保持同等精度水平。這種性價(jià)比優(yōu)勢(shì)使其在邊緣設(shè)備部署上展現(xiàn)巨大潛力:智能汽車可實(shí)時(shí)識(shí)別復(fù)雜路況,工業(yè)機(jī)器人能精準(zhǔn)理解操作指令,AR眼鏡可自然交互三維空間信息。商湯同步開源的2B與9B規(guī)格模型,已吸引全球開發(fā)者構(gòu)建超過50個(gè)下游應(yīng)用。
這場架構(gòu)革命正在引發(fā)連鎖反應(yīng)。開源社區(qū)出現(xiàn)多個(gè)基于NEO的改進(jìn)模型,學(xué)術(shù)界開始重新審視多模態(tài)模型的評(píng)估標(biāo)準(zhǔn),產(chǎn)業(yè)界加速調(diào)整技術(shù)路線圖。某頭部手機(jī)廠商透露,其下一代AI助手將采用NEO架構(gòu)實(shí)現(xiàn)實(shí)時(shí)場景理解;自動(dòng)駕駛公司正在測試該架構(gòu)在動(dòng)態(tài)障礙物識(shí)別中的表現(xiàn)。當(dāng)行業(yè)陷入“規(guī)模競賽”迷思時(shí),NEO用原生設(shè)計(jì)證明:真正的智能突破不在于參數(shù)數(shù)量,而在于架構(gòu)對(duì)信息本質(zhì)的理解能力。這種回歸智能本質(zhì)的探索,或許正是通往通用人工智能的關(guān)鍵路徑。











