滾動資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內(nèi)容

Meta WebSSL模型亮相：純視覺自監(jiān)督學(xué)習(xí)，能否引領(lǐng)AI新風(fēng)尚？

時間：2025-04-25 13:27:02 來源：ITBEAR編輯：快訊團(tuán)隊 發(fā)表評論無障礙通道

近日，科技界迎來了一項重要進(jìn)展，meta公司正式推出了WebSSL系列模型，這一系列模型在視覺自監(jiān)督學(xué)習(xí)（SSL）領(lǐng)域邁出了探索性的一步。據(jù)悉，這些模型的參數(shù)規(guī)模橫跨3億至70億，完全基于純圖像數(shù)據(jù)進(jìn)行訓(xùn)練，旨在挖掘無語言監(jiān)督下的視覺學(xué)習(xí)潛力。

以往，以O(shè)penAI的CLIP模型為代表的語言-圖像對比學(xué)習(xí)模型，在多模態(tài)任務(wù)如視覺問答（VQA）和文檔理解中表現(xiàn)出色，成為學(xué)習(xí)視覺表征的主流方法。然而，這類模型高度依賴語言數(shù)據(jù)，數(shù)據(jù)集獲取的復(fù)雜性和規(guī)模限制成為其進(jìn)一步發(fā)展的瓶頸。

meta公司此次發(fā)布的WebSSL系列模型，正是針對這一痛點而生。該系列模型涵蓋了DINO和Vision Transformer（ViT）兩種架構(gòu)，并在Hugging Face平臺上公開。這些模型使用了metaCLIP數(shù)據(jù)集（MC-2B）中的一個20億張圖像子集進(jìn)行訓(xùn)練，完全排除了語言監(jiān)督的影響。

實驗結(jié)果顯示，隨著參數(shù)規(guī)模的增加，WebSSL模型在VQA任務(wù)上的表現(xiàn)呈現(xiàn)出接近對數(shù)線性的提升趨勢，而CLIP模型在參數(shù)超過30億后性能趨于飽和。特別是在OCR和圖表任務(wù)中，WebSSL模型表現(xiàn)尤為突出。經(jīng)過數(shù)據(jù)篩選后，僅用1.3%的富文本圖像進(jìn)行訓(xùn)練，WebSSL模型在OCRBench和ChartQA任務(wù)中的性能就超越了CLIP，提升幅度高達(dá)13.6%。

替代圖片

WebSSL模型在高分辨率（518px）微調(diào)后，進(jìn)一步縮小了與SigLIP等高分辨率模型的性能差距，在文檔任務(wù)中表現(xiàn)出色。值得注意的是，即使在無語言監(jiān)督的情況下，WebSSL模型仍展現(xiàn)出與預(yù)訓(xùn)練語言模型（如LLaMA-3）的良好對齊性，這表明大規(guī)模視覺模型能夠隱式學(xué)習(xí)到與文本語義相關(guān)的特征。

同時，WebSSL模型在傳統(tǒng)基準(zhǔn)測試如ImageNet-1k分類和ADE20K分割上也保持了強勁表現(xiàn)，部分場景下甚至優(yōu)于metaCLIP和DINOv2模型。這一系列成果不僅為視覺自監(jiān)督學(xué)習(xí)提供了新的思路和方法，也為未來視覺模型的發(fā)展奠定了堅實基礎(chǔ)。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

騰訊Kuikly框架開源：Kotlin打造，安卓iOS鴻蒙等五端一統(tǒng)

04-28

書香佐餐，京東圖書美食書單讓你的餐桌與心靈同享盛宴

04-28

尼康四款產(chǎn)品齊奪2025 TIPA大獎，影像技術(shù)再獲國際認(rèn)可！

04-28

何以“解憂”——Soul App“解憂房”，讓心事不再沉重

在快節(jié)奏的現(xiàn)代生活中,心理壓力與情感困惑已成為許多都市年輕人不得不面對的挑戰(zhàn)。他們渴望被理解、被傾聽,尋找能夠卸下偽裝、展露真我,并從中獲得慰藉與力量的港灣。在眾多線上平臺中,Soul App以其獨特的“靈魂社交”理念,憑借匿名性帶來的安全感、溫暖的社區(qū)氛圍以及

04-28

倍思親手表京東售價僅抖音7折貨比三家才能理性決策

近日，有細(xì)心的網(wǎng)友在比價時發(fā)現(xiàn)，同款產(chǎn)品在不同平臺存在差價的現(xiàn)象。比如在4月28日的京東3C數(shù)碼“瘋狂星期一”上線的很多產(chǎn)品，就比天貓、抖音、拼多多等平臺的同款更優(yōu)惠。在此勸告廣大消費者朋友，無論對商品有多心動，下單前都要記得先去不同平臺多比比價，只有貨

04-28

我國科學(xué)家自研腦機接口新突破：CyberSense柔性電極植入機器人亮相

04-28

文石BOOX Go 7系列電紙書海外亮相：安卓系統(tǒng)，彩色墨水屏可選

04-28

安卓版Chrome內(nèi)置PDF閱讀器，標(biāo)記查找一應(yīng)俱全！

04-28

聯(lián)電12nm工藝與英特爾合作順利，2027年有望投產(chǎn)，性能大幅提升

04-28

微軟2025工作趨勢：人機協(xié)作新時代，員工變身智能體“管理者”

04-28

戴爾科技發(fā)布新一代服務(wù)器：智算性能躍升67%，能耗降低50%引領(lǐng)數(shù)據(jù)中心變革

04-28

OPPO中國區(qū)換帥，劉波卸任投身高管學(xué)習(xí)計劃

OPPO此前的內(nèi)部消息稱，原中國區(qū)總裁劉波因脫產(chǎn)參加高管學(xué)習(xí)計劃卸任該職位。高級副總裁段要輝直接負(fù)責(zé)中國市場，對中國區(qū)整體業(yè)務(wù)負(fù)責(zé)。另外，此次調(diào)整還涉及線下銷售板塊，由原 Reno 與 A 系列 GTM …

04-28

量子傳感新突破：超導(dǎo)微線單光子探測器精準(zhǔn)捕捉粒子軌跡

04-28

皮克斯新片《地球特派員》來襲，小男孩星際冒險即將登陸內(nèi)地院線！

04-28

微軟勸Win10用戶升級：Win11或Copilot+ PC，你選哪個？

04-28

點擊查看更多 +

全站最新

三星HBM3E遭遇挑戰(zhàn)，谷歌轉(zhuǎn)投美光方案，存儲器巨頭地位動搖？

億緯鋰能江吉兵詳解：大圓柱電池如何以“原位升級”領(lǐng)跑市場？

希沃?jǐn)y手火山引擎：AI技術(shù)如何賦能千萬教師，重塑教育生態(tài)？

AMD RX 9070 GRE顯卡正式亮相：48CU規(guī)格，5月8日開售定價4199元起

2025數(shù)據(jù)安全發(fā)展大會：共探數(shù)據(jù)要素潛能，溫州引領(lǐng)數(shù)字經(jīng)濟(jì)新篇章

西安交大“白鴿音樂節(jié)”：華為音樂帶你沉浸式觸碰春日旋律

熱門內(nèi)容

本欄最新

尼康四款產(chǎn)品齊奪2025 TIPA大獎，影像技術(shù)再獲國際認(rèn)可！

文石BOOX Go 7系列電紙書海外亮相：安卓系統(tǒng)，彩色墨水屏可選

安卓版Chrome內(nèi)置PDF閱讀器，標(biāo)記查找一應(yīng)俱全！

量子傳感新突破：超導(dǎo)微線單光子探測器精準(zhǔn)捕捉粒子軌跡

皮克斯新片《地球特派員》來襲，小男孩星際冒險即將登陸內(nèi)地院線！

微軟勸Win10用戶升級：Win11或Copilot+ PC，你選哪個？

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

Meta WebSSL模型亮相：純視覺自監(jiān)督學(xué)習(xí)，能否引領(lǐng)AI新風(fēng)尚？

日本精品一区二区三区高清久久