滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 業(yè)界動(dòng)態(tài) > 正文內(nèi)容

英偉達(dá)DAM-3B模型：精準(zhǔn)描繪圖像視頻細(xì)節(jié)，局部描述難題迎刃而解

時(shí)間：2025-04-24 17:25:37 來(lái)源：ITBEAR編輯：快訊團(tuán)隊(duì) 發(fā)表評(píng)論無(wú)障礙通道

近期，科技界迎來(lái)了一項(xiàng)新突破，英偉達(dá)公司宣布成功研發(fā)出Describe Anything3B（簡(jiǎn)稱(chēng)DAM-3B）AI模型，這一創(chuàng)新成果旨在解決圖像和視頻中特定區(qū)域描述的技術(shù)難題。

在視覺(jué)與語(yǔ)言模型的廣泛應(yīng)用中，雖然整體圖像描述能力已經(jīng)相當(dāng)成熟，但針對(duì)特定區(qū)域的細(xì)致描述卻一直是難以攻克的痛點(diǎn)，尤其是在視頻內(nèi)容處理中，還需考慮時(shí)間動(dòng)態(tài)因素，挑戰(zhàn)更為復(fù)雜。

英偉達(dá)推出的DAM-3B模型，正是針對(duì)這一挑戰(zhàn)而設(shè)計(jì)的。用戶可以通過(guò)簡(jiǎn)單的點(diǎn)擊、繪制邊界框、涂鴉或使用掩碼等方式，指定圖像或視頻中的目標(biāo)區(qū)域，DAM-3B便能生成精準(zhǔn)且符合上下文語(yǔ)境的描述文本。為了滿足靜態(tài)圖像和動(dòng)態(tài)視頻的不同需求，英偉達(dá)還分別推出了DAM-3B和DAM-3B-Video兩個(gè)版本，并且已在Hugging Face平臺(tái)上公開(kāi)共享。

DAM-3B的核心創(chuàng)新體現(xiàn)在其獨(dú)特的“焦點(diǎn)提示”技術(shù)和“局部視覺(jué)骨干網(wǎng)絡(luò)”設(shè)計(jì)上。焦點(diǎn)提示技術(shù)通過(guò)巧妙融合全圖信息與目標(biāo)區(qū)域的高分辨率裁剪，確保了細(xì)節(jié)信息的完整保留，同時(shí)也不失整體背景信息。而局部視覺(jué)骨干網(wǎng)絡(luò)則通過(guò)嵌入圖像和掩碼輸入，利用先進(jìn)的門(mén)控交叉注意力機(jī)制，將全局特征與局部特征相結(jié)合，最終傳輸至大語(yǔ)言模型進(jìn)行描述生成。

為了進(jìn)一步擴(kuò)展模型的應(yīng)用范圍，DAM-3B-Video在視頻處理方面進(jìn)行了優(yōu)化，通過(guò)逐幀編碼區(qū)域掩碼并整合時(shí)間信息，即使在目標(biāo)被遮擋或處于運(yùn)動(dòng)狀態(tài)時(shí)，也能生成準(zhǔn)確的描述。

在數(shù)據(jù)訓(xùn)練方面，英偉達(dá)也采取了創(chuàng)新的策略。為了解決訓(xùn)練數(shù)據(jù)匱乏的問(wèn)題，他們開(kāi)發(fā)了DLC-SDP半監(jiān)督數(shù)據(jù)生成策略，利用分割數(shù)據(jù)集和未標(biāo)注的網(wǎng)絡(luò)圖像，成功構(gòu)建了包含150萬(wàn)局部描述樣本的訓(xùn)練語(yǔ)料庫(kù)。他們還通過(guò)自訓(xùn)練方法不斷優(yōu)化描述質(zhì)量，確保輸出文本的高精準(zhǔn)度。

為了評(píng)估模型的性能，英偉達(dá)團(tuán)隊(duì)還推出了DLC-Bench評(píng)估基準(zhǔn)，這一基準(zhǔn)以屬性級(jí)正確性為衡量標(biāo)準(zhǔn)，而非傳統(tǒng)的參考文本對(duì)比，從而更準(zhǔn)確地反映了描述質(zhì)量。

在多項(xiàng)基準(zhǔn)測(cè)試中，DAM-3B展現(xiàn)出了卓越的性能。在包括LVIS、Flickr30k Entities等在內(nèi)的七項(xiàng)測(cè)試中，DAM-3B的平均準(zhǔn)確率高達(dá)67.3%，超越了GPT-4o和VideoRefer等領(lǐng)先模型。

DAM-3B的推出，不僅填補(bǔ)了局部描述領(lǐng)域的技術(shù)空白，其創(chuàng)新的上下文感知架構(gòu)和高質(zhì)量數(shù)據(jù)策略還為無(wú)障礙工具、機(jī)器人技術(shù)及視頻內(nèi)容分析等領(lǐng)域帶來(lái)了全新的可能性，為科技應(yīng)用的發(fā)展注入了新的活力。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0

更多>同類(lèi)資訊

小米YU7商標(biāo)初審?fù)ㄟ^(guò)，小米布局新領(lǐng)域信號(hào)明顯？

05-22

Mistral AI推出Devstral模型：240億參數(shù)，單張顯卡輕松駕馭AI編程

05-22

抖音升級(jí)侵權(quán)舉報(bào)，開(kāi)通“阻重”功能護(hù)肖像隱私權(quán)

近日，抖音平臺(tái)宣布對(duì)其侵權(quán)舉報(bào)服務(wù)進(jìn)行升級(jí)，在肖像權(quán)、隱私權(quán)侵權(quán)情形下，支持用戶授權(quán)開(kāi)通“阻止相同侵權(quán)內(nèi)容傳播”功能，大幅降低重復(fù)侵權(quán)投訴的成本，探索“一次投訴、長(zhǎng)期管控”的治理目標(biāo)。抖音副總裁李亮表示，這…

05-22

智慧停車(chē)新紀(jì)元：捷停車(chē)與廣州融數(shù)共繪鄉(xiāng)村振興科技藍(lán)圖

05-22

雷軍預(yù)告：小米YU7豪華SUV 7月上市，今晚預(yù)發(fā)布不公布售價(jià)

05-22

聯(lián)想集團(tuán)2024/25財(cái)年財(cái)報(bào)出爐：年?duì)I收大增21%，單季凈利同比下降51%

05-22

華住集團(tuán)2025年Q1財(cái)報(bào)：營(yíng)收微增，租賃及自有酒店收入下滑明顯

05-22

手回科技招股在即：計(jì)劃募資近2億港元，5月30日港股市場(chǎng)亮相

05-22

華擎sTR5主板全面擁抱AMD銳龍Threadripper 9000系列新品！

05-22

小米YU7來(lái)襲！多個(gè)相關(guān)商標(biāo)初審?fù)ㄟ^(guò)，正式上市在即？

05-22

山東快餐品牌超意興：700余家門(mén)店年收20億，平價(jià)之路能否越走越寬？

05-22

清華同方超銳T40-Z70來(lái)襲，兆芯KX-7000處理器賦能信創(chuàng)新高度！

05-22

網(wǎng)信辦重拳出擊！兩月專(zhuān)項(xiàng)整治涉企網(wǎng)絡(luò)黑嘴亂象

發(fā)布涉企負(fù)面信息后，以“刪帖”“撤稿”等名義，向企業(yè)索要“刪稿費(fèi)”“公關(guān)費(fèi)”；憑借自身話語(yǔ)權(quán)和影響力，以“輿論監(jiān)督”“新聞監(jiān)督”等名義，要挾企業(yè)提供“保護(hù)費(fèi)”；在企業(yè)新品發(fā)布、上市、融資等重要時(shí)間節(jié)點(diǎn)，發(fā)布涉…

05-22

淘寶直播流量券管理新規(guī)即將生效，主播機(jī)構(gòu)如何合規(guī)獲取與使用？

新榜訊 5 月 22日訊，為規(guī)范淘寶直播流量券激勵(lì)場(chǎng)景，確保主播及機(jī)構(gòu)能夠健康、持續(xù)經(jīng)營(yíng)，淘寶直播擬全新增添《淘寶直播流量券獲取及使用管理規(guī)范》。該規(guī)則預(yù)計(jì)于2025 年 5 月 28 日首度生效，202…

05-22

張雪峰2025高考季快手獨(dú)家直播，15天免費(fèi)指導(dǎo)志愿填報(bào)

新榜訊 5 月 22 日消息，張雪峰正式宣布，將于高考志愿報(bào)考的核心階段 6 月 15 日至 30 日，在快手平臺(tái)@張雪峰老師的直播間展開(kāi)全網(wǎng)獨(dú)家直播，連續(xù) 15 天免費(fèi)連麥，為志愿填報(bào)助力。據(jù)了解，此為張…

05-22

點(diǎn)擊查看更多 +

全站最新

抖音升級(jí)侵權(quán)舉報(bào)，開(kāi)通“阻重”功能護(hù)肖像隱私權(quán)

領(lǐng)克900重新定義家庭出行新標(biāo)準(zhǔn)，安全性能卓越上市受熱捧！

仰望U8L：全尺寸行政豪華SUV，下半年震撼登場(chǎng)，售價(jià)或?qū)⒏萑A！

2025款五菱星光升級(jí)上市，續(xù)航、智能輔助駕駛能否助銷(xiāo)量攀升？

九號(hào)Q3電動(dòng)車(chē)：奶茶配色智能出行，女生專(zhuān)屬的情緒單品來(lái)襲！

TCL與阿里云攜手，全棧AI賦能半導(dǎo)體顯示，共創(chuàng)科技制造新篇章

熱門(mén)內(nèi)容

本欄最新

智慧停車(chē)新紀(jì)元：捷停車(chē)與廣州融數(shù)共繪鄉(xiāng)村振興科技藍(lán)圖

雷軍預(yù)告：小米YU7豪華SUV 7月上市，今晚預(yù)發(fā)布不公布售價(jià)

聯(lián)想集團(tuán)2024/25財(cái)年財(cái)報(bào)出爐：年?duì)I收大增21%，單季凈利同比下降51%

華住集團(tuán)2025年Q1財(cái)報(bào)：營(yíng)收微增，租賃及自有酒店收入下滑明顯

手回科技招股在即：計(jì)劃募資近2億港元，5月30日港股市場(chǎng)亮相

華擎sTR5主板全面擁抱AMD銳龍Threadripper 9000系列新品！

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類(lèi)資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

英偉達(dá)DAM-3B模型：精準(zhǔn)描繪圖像視頻細(xì)節(jié)，局部描述難題迎刃而解

日本精品一区二区三区高清久久

英偉達(dá)DAM-3B模型：精準(zhǔn)描繪圖像視頻細(xì)節(jié)，局部描述難題迎刃而解