滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

Meta WebSSL模型亮相：無語言監(jiān)督，視覺學習新突破？

時間：2025-04-26 10:47:39 來源：ITBEAR編輯：快訊團隊 發(fā)表評論無障礙通道

近期，meta公司推出了全新的WebSSL系列視覺模型，這一系列模型的參數(shù)規(guī)模橫跨3億至70億，專注于無語言監(jiān)督的視覺自監(jiān)督學習（SSL）領(lǐng)域。該系列模型的推出，標志著meta在探索視覺表征學習新路徑上的重大進展，為未來的多模態(tài)任務應用提供了更多可能性。

在人工智能領(lǐng)域，多模態(tài)任務的表現(xiàn)一直備受關(guān)注，OpenAI的CLIP模型便是其中的佼佼者，尤其在視覺問答（VQA）和文檔理解等任務中表現(xiàn)突出。然而，CLIP模型的訓練依賴于大規(guī)模且復雜的語言數(shù)據(jù)集，這在一定程度上限制了其廣泛應用。為了突破這一局限，meta利用自家的metaCLIP數(shù)據(jù)集（包含20億張圖像）進行訓練，完全摒棄了語言監(jiān)督，旨在純粹通過視覺數(shù)據(jù)來提升模型性能。

實驗結(jié)果表明，隨著模型參數(shù)規(guī)模的增加，WebSSL在VQA任務中的表現(xiàn)呈現(xiàn)出顯著提升。特別是在OCR和圖表解讀任務中，WebSSL的表現(xiàn)甚至超越了CLIP模型。當通過高分辨率（518px）進行微調(diào)時，WebSSL在文檔理解任務中的表現(xiàn)也取得了大幅提升，進一步縮小了與一些高分辨率模型的差距。

值得注意的是，盡管WebSSL模型是在無語言監(jiān)督的條件下進行訓練的，但它們?nèi)匀徽宫F(xiàn)出與一些預訓練語言模型（如LLaMA-3）的良好對齊性。這一發(fā)現(xiàn)表明，大規(guī)模視覺模型能夠在沒有顯式語言監(jiān)督的情況下，隱式地學習到與文本語義相關(guān)的特征。這一發(fā)現(xiàn)為視覺與語言之間的關(guān)系提供了新的視角和思考。

meta的WebSSL系列模型的推出，不僅在傳統(tǒng)基準測試中取得了優(yōu)異表現(xiàn)，更為未來無語言監(jiān)督學習的研究開辟了新的方向。這一系列模型的成功，標志著meta在推動人工智能領(lǐng)域創(chuàng)新方面邁出了重要一步。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

英偉達B300 GPU五月投產(chǎn)，GB300超級芯片主板沿用Bianca設計

04-28

AI成自閉癥群體社交“導航員”，但專家提醒：成長還需自我面對

04-28

{一加Ace5系列來襲：天璣9400E+7000mAh大電池，性價比王者？》

04-28

YouTube新探：AI生成視頻亮點，能否優(yōu)化用戶體驗？

04-28

蘋果重組AI團隊，Siri新功能延期至2026年，庫克如何應對挑戰(zhàn)？

04-28

阿里AI工程師余亮：以大數(shù)據(jù)智慧點亮城市，榮獲全國勞動模范稱號

04-28

韻達股份布局未來：韻耀科技引領(lǐng)機器人與AI硬件新篇章

04-28

慧科訊業(yè)TDaaS：破解多模態(tài)數(shù)據(jù)治理，AI驅(qū)動數(shù)據(jù)標簽化新紀元

04-28

三星HBM3E遭遇挑戰(zhàn)，谷歌轉(zhuǎn)投美光方案，存儲器巨頭地位動搖？

04-28

希沃攜手火山引擎：AI技術(shù)如何賦能千萬教師，重塑教育生態(tài)？

04-28

2025數(shù)據(jù)安全發(fā)展大會：共探數(shù)據(jù)要素潛能，溫州引領(lǐng)數(shù)字經(jīng)濟新篇章

04-28

國內(nèi)首款AI錄屏神器！小旺AI截圖：7MB實現(xiàn)截屏錄屏自由

在數(shù)字化進程加速的今天,電腦錄屏與截圖功能已成為日常工作、學習和娛樂中的重要工具。面對市場上眾多功能各異的軟件,挑選一款好用且免費的工具是許多用戶關(guān)心的問題。今天,給大家推薦一款集基礎錄屏與截圖功能于一身,還具備進階AI功能的寶藏軟件——小旺AI截圖,它在多

04-28

閃存新紀元：憶聯(lián)技術(shù)創(chuàng)新引領(lǐng)AI時代存儲價值重塑

04-28

字節(jié)跳動“Top Seed”計劃啟動，2026屆博士生成AI領(lǐng)域新星招募對象

04-28

AI加速核聚變：新奧引領(lǐng)能源創(chuàng)新革命之路

2024 年，美國普林斯頓等離子體物理實驗室（PPPL）開發(fā)出一種 AI 模型，能夠提前 300 毫秒預測等離子體的不穩(wěn)定性；美國橡樹嶺國家實驗室（ORNL）成功構(gòu)建了一個用于發(fā)現(xiàn)核聚變設施新型合金的人工智能…

04-28

點擊查看更多 +

全站最新

石頭科技或赴港二次上市，擬籌資5億美元拓展版圖？

國鐵集團數(shù)字中國峰會秀“黑科技”：隧道監(jiān)測、高鐵駕駛?cè)w驗

國鐵集團在數(shù)字中國峰會上秀“黑科技”：高鐵檢測機器人與無人機齊亮相

深藍S09來襲！5.2米大尺寸平替“邁巴赫”，L9和M9如何應對？

聯(lián)想發(fā)布ThinkPad T14p 2025系列，酷睿Ultra 5/9配置新機亮相！

英偉達B300 GPU五月投產(chǎn)，GB300超級芯片主板沿用Bianca設計

熱門內(nèi)容

本欄最新

英偉達B300 GPU五月投產(chǎn)，GB300超級芯片主板沿用Bianca設計

{一加Ace5系列來襲：天璣9400E+7000mAh大電池，性價比王者？》

慧科訊業(yè)TDaaS：破解多模態(tài)數(shù)據(jù)治理，AI驅(qū)動數(shù)據(jù)標簽化新紀元

三星HBM3E遭遇挑戰(zhàn)，谷歌轉(zhuǎn)投美光方案，存儲器巨頭地位動搖？

希沃攜手火山引擎：AI技術(shù)如何賦能千萬教師，重塑教育生態(tài)？

2025數(shù)據(jù)安全發(fā)展大會：共探數(shù)據(jù)要素潛能，溫州引領(lǐng)數(shù)字經(jīng)濟新篇章

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

Meta WebSSL模型亮相：無語言監(jiān)督，視覺學習新突破？

日本精品一区二区三区高清久久