科學家們近期發現,僅通過文本數據訓練的大型語言模型,在處理圖像任務時展現出驚人的能力。這一現象引發了學術界的廣泛關注,研究人員開始深入探究其背后的機制。他們發現,這些從未接觸過圖像數據的模型,在配備視覺編碼器并經過少量多模態訓練后,竟能在視覺任務中表現優異,甚至有些模型能完成從未見過的視覺推理任務。
為解開這一謎題,由meta超級智能實驗室和牛津大學聯合組成的研究團隊開展了系統性實驗。他們精心設計了超過100個不同規模的模型,消耗50萬GPU小時計算資源,測試不同文本數據組合對模型性能的影響。實驗發現,語言模型在純文本訓練中獲得的視覺能力,實際上由兩種獨立技能組成:感知工具負責識別圖像基本元素,推理工具負責分析元素間的邏輯關系。
通過分析模型在四種視覺任務上的表現,研究人員發現通用視覺理解和文字識別任務存在顯著相關性,反映它們依賴同一種感知引擎。而知識密集型任務和視覺推理任務則依賴推理引擎,且這兩個引擎間的相關性極弱。這意味著模型的基礎視覺識別能力與視覺推理能力可獨立發展,顛覆了傳統認知。
為驗證推理能力的跨模態特性,研究團隊讓模型解釋視覺問題的推理過程,并評估解釋的邏輯嚴密性和深度。結果顯示,代碼訓練比例從0%增至100%時,模型視覺推理解釋的邏輯嚴密性從4.52%提升至9.52%,推理深度激增六倍多。接受大量代碼訓練的模型能詳細解釋邊界框判斷標準,而未訓練的模型只能給出簡單答案。
在探索最佳數據配方的過程中,研究團隊構建了24種不同比例的數據組合。實驗發現,包含60%推理型內容和15%視覺描述內容的配方效果最佳。進一步實驗表明,隨著推理型內容比例增加,模型視覺能力逐步提升,而語言能力略有下降。其中,包含40%網絡文本、35%代碼和10%數學內容的mix6配方,在保持語言性能的同時實現了33.3%的視覺準確率。
感知能力的培養則呈現不同特點。研究團隊創建的多層次存在基準測試顯示,在網絡爬蟲數據上訓練的模型識別小到中等大小物體的能力最強。這歸因于網絡文本包含對各種視覺概念的豐富描述。實驗還發現,僅用25%視覺描述文本訓練的模型,在某些復雜視覺任務上的表現優于用100%視覺文本訓練的模型,表明單純增加視覺描述比例未必能提升深層理解能力。
為驗證理論發現的實際價值,研究團隊訓練了兩個7B參數的大型模型,分別采用傳統語言友好配方和平衡配方。結果顯示,平衡配方模型在語言能力測試中的困惑度明顯優于對照組,平均準確率也有所提升。在視覺任務測試中,平衡配方模型在知識密集型任務上的表現提升最為顯著,驗證了推理能力跨模態遷移的理論。
研究過程中還意外發現"盲視覺指令調優"現象。讓模型在只有文本指令而無對應圖像的情況下學習,再正常訓練,可提升整體視覺性能。但這種提升源于模型利用問題線索和預訓練知識進行推測,可能導致實際應用中產生幻覺。測試顯示,多數先進AI系統在無圖像情況下會"編造"答案,引發對當前AI評估方法的反思。
研究為柏拉圖表征假說提供了實證支持。該假說認為,文本和圖像是現實世界的不同投影,強大模型可從任何單一投影中學習底層結構。計算顯示,接受更多結構化推理文本訓練的語言模型,與視覺模型的表征相似性更高,且這種相似性與實際視覺任務表現一致。這表明智能可能存在普遍計算原理,反映現實世界本身的結構特征。
針對常見問題,研究團隊給出解答:大語言模型的視覺先驗由推理先驗和感知先驗構成,前者來自邏輯文本,后者來自視覺描述文本;代碼訓練能提升視覺推理能力,因其培養的邏輯思維能力可遷移;培養視覺能力的最佳數據配方包含約60%推理型文本和15%視覺描述文本。













