日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

Meta WebSSL模型亮相:純視覺自監(jiān)督學(xué)習(xí),能否引領(lǐng)AI新風(fēng)尚?

   時間:2025-04-25 13:27:02 來源:ITBEAR編輯:快訊團(tuán)隊 發(fā)表評論無障礙通道

近日,科技界迎來了一項重要進(jìn)展,meta公司正式推出了WebSSL系列模型,這一系列模型在視覺自監(jiān)督學(xué)習(xí)(SSL)領(lǐng)域邁出了探索性的一步。據(jù)悉,這些模型的參數(shù)規(guī)模橫跨3億至70億,完全基于純圖像數(shù)據(jù)進(jìn)行訓(xùn)練,旨在挖掘無語言監(jiān)督下的視覺學(xué)習(xí)潛力。

以往,以O(shè)penAI的CLIP模型為代表的語言-圖像對比學(xué)習(xí)模型,在多模態(tài)任務(wù)如視覺問答(VQA)和文檔理解中表現(xiàn)出色,成為學(xué)習(xí)視覺表征的主流方法。然而,這類模型高度依賴語言數(shù)據(jù),數(shù)據(jù)集獲取的復(fù)雜性和規(guī)模限制成為其進(jìn)一步發(fā)展的瓶頸。

meta公司此次發(fā)布的WebSSL系列模型,正是針對這一痛點而生。該系列模型涵蓋了DINO和Vision Transformer(ViT)兩種架構(gòu),并在Hugging Face平臺上公開。這些模型使用了metaCLIP數(shù)據(jù)集(MC-2B)中的一個20億張圖像子集進(jìn)行訓(xùn)練,完全排除了語言監(jiān)督的影響。

實驗結(jié)果顯示,隨著參數(shù)規(guī)模的增加,WebSSL模型在VQA任務(wù)上的表現(xiàn)呈現(xiàn)出接近對數(shù)線性的提升趨勢,而CLIP模型在參數(shù)超過30億后性能趨于飽和。特別是在OCR和圖表任務(wù)中,WebSSL模型表現(xiàn)尤為突出。經(jīng)過數(shù)據(jù)篩選后,僅用1.3%的富文本圖像進(jìn)行訓(xùn)練,WebSSL模型在OCRBench和ChartQA任務(wù)中的性能就超越了CLIP,提升幅度高達(dá)13.6%。

替代圖片

替代圖片

WebSSL模型在高分辨率(518px)微調(diào)后,進(jìn)一步縮小了與SigLIP等高分辨率模型的性能差距,在文檔任務(wù)中表現(xiàn)出色。值得注意的是,即使在無語言監(jiān)督的情況下,WebSSL模型仍展現(xiàn)出與預(yù)訓(xùn)練語言模型(如LLaMA-3)的良好對齊性,這表明大規(guī)模視覺模型能夠隱式學(xué)習(xí)到與文本語義相關(guān)的特征。

同時,WebSSL模型在傳統(tǒng)基準(zhǔn)測試如ImageNet-1k分類和ADE20K分割上也保持了強勁表現(xiàn),部分場景下甚至優(yōu)于metaCLIP和DINOv2模型。這一系列成果不僅為視覺自監(jiān)督學(xué)習(xí)提供了新的思路和方法,也為未來視覺模型的發(fā)展奠定了堅實基礎(chǔ)。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 香港| 全州县| 赤壁市| 蛟河市| 会宁县| 永兴县| 宜州市| 湟源县| 寿阳县| 双鸭山市| 浮梁县| 宜城市| 安乡县| 奉化市| 南昌市| 关岭| 象山县| 武隆县| 屯门区| 六安市| 滨州市| 东丽区| 建阳市| 宝丰县| 兴海县| 台湾省| 大荔县| 共和县| 郯城县| 井冈山市| 奉贤区| 元朗区| 綦江县| 阜新| 宁强县| 郴州市| 巴青县| 台东县| 龙川县| 犍为县| 屯门区|