近日,科技界迎來了一項重要進(jìn)展,meta公司正式推出了WebSSL系列模型,這一系列模型在視覺自監(jiān)督學(xué)習(xí)(SSL)領(lǐng)域邁出了探索性的一步。據(jù)悉,這些模型的參數(shù)規(guī)模橫跨3億至70億,完全基于純圖像數(shù)據(jù)進(jìn)行訓(xùn)練,旨在挖掘無語言監(jiān)督下的視覺學(xué)習(xí)潛力。
以往,以O(shè)penAI的CLIP模型為代表的語言-圖像對比學(xué)習(xí)模型,在多模態(tài)任務(wù)如視覺問答(VQA)和文檔理解中表現(xiàn)出色,成為學(xué)習(xí)視覺表征的主流方法。然而,這類模型高度依賴語言數(shù)據(jù),數(shù)據(jù)集獲取的復(fù)雜性和規(guī)模限制成為其進(jìn)一步發(fā)展的瓶頸。
meta公司此次發(fā)布的WebSSL系列模型,正是針對這一痛點而生。該系列模型涵蓋了DINO和Vision Transformer(ViT)兩種架構(gòu),并在Hugging Face平臺上公開。這些模型使用了metaCLIP數(shù)據(jù)集(MC-2B)中的一個20億張圖像子集進(jìn)行訓(xùn)練,完全排除了語言監(jiān)督的影響。
實驗結(jié)果顯示,隨著參數(shù)規(guī)模的增加,WebSSL模型在VQA任務(wù)上的表現(xiàn)呈現(xiàn)出接近對數(shù)線性的提升趨勢,而CLIP模型在參數(shù)超過30億后性能趨于飽和。特別是在OCR和圖表任務(wù)中,WebSSL模型表現(xiàn)尤為突出。經(jīng)過數(shù)據(jù)篩選后,僅用1.3%的富文本圖像進(jìn)行訓(xùn)練,WebSSL模型在OCRBench和ChartQA任務(wù)中的性能就超越了CLIP,提升幅度高達(dá)13.6%。
WebSSL模型在高分辨率(518px)微調(diào)后,進(jìn)一步縮小了與SigLIP等高分辨率模型的性能差距,在文檔任務(wù)中表現(xiàn)出色。值得注意的是,即使在無語言監(jiān)督的情況下,WebSSL模型仍展現(xiàn)出與預(yù)訓(xùn)練語言模型(如LLaMA-3)的良好對齊性,這表明大規(guī)模視覺模型能夠隱式學(xué)習(xí)到與文本語義相關(guān)的特征。
同時,WebSSL模型在傳統(tǒng)基準(zhǔn)測試如ImageNet-1k分類和ADE20K分割上也保持了強勁表現(xiàn),部分場景下甚至優(yōu)于metaCLIP和DINOv2模型。這一系列成果不僅為視覺自監(jiān)督學(xué)習(xí)提供了新的思路和方法,也為未來視覺模型的發(fā)展奠定了堅實基礎(chǔ)。