日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

英偉達(dá)DAM-3B模型:精準(zhǔn)描繪圖像視頻細(xì)節(jié),局部描述難題迎刃而解

   時(shí)間:2025-04-24 17:25:37 來(lái)源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評(píng)論無(wú)障礙通道

近期,科技界迎來(lái)了一項(xiàng)新突破,英偉達(dá)公司宣布成功研發(fā)出Describe Anything3B(簡(jiǎn)稱(chēng)DAM-3B)AI模型,這一創(chuàng)新成果旨在解決圖像和視頻中特定區(qū)域描述的技術(shù)難題。

在視覺(jué)與語(yǔ)言模型的廣泛應(yīng)用中,雖然整體圖像描述能力已經(jīng)相當(dāng)成熟,但針對(duì)特定區(qū)域的細(xì)致描述卻一直是難以攻克的痛點(diǎn),尤其是在視頻內(nèi)容處理中,還需考慮時(shí)間動(dòng)態(tài)因素,挑戰(zhàn)更為復(fù)雜。

英偉達(dá)推出的DAM-3B模型,正是針對(duì)這一挑戰(zhàn)而設(shè)計(jì)的。用戶可以通過(guò)簡(jiǎn)單的點(diǎn)擊、繪制邊界框、涂鴉或使用掩碼等方式,指定圖像或視頻中的目標(biāo)區(qū)域,DAM-3B便能生成精準(zhǔn)且符合上下文語(yǔ)境的描述文本。為了滿足靜態(tài)圖像和動(dòng)態(tài)視頻的不同需求,英偉達(dá)還分別推出了DAM-3B和DAM-3B-Video兩個(gè)版本,并且已在Hugging Face平臺(tái)上公開(kāi)共享。

DAM-3B的核心創(chuàng)新體現(xiàn)在其獨(dú)特的“焦點(diǎn)提示”技術(shù)和“局部視覺(jué)骨干網(wǎng)絡(luò)”設(shè)計(jì)上。焦點(diǎn)提示技術(shù)通過(guò)巧妙融合全圖信息與目標(biāo)區(qū)域的高分辨率裁剪,確保了細(xì)節(jié)信息的完整保留,同時(shí)也不失整體背景信息。而局部視覺(jué)骨干網(wǎng)絡(luò)則通過(guò)嵌入圖像和掩碼輸入,利用先進(jìn)的門(mén)控交叉注意力機(jī)制,將全局特征與局部特征相結(jié)合,最終傳輸至大語(yǔ)言模型進(jìn)行描述生成。

為了進(jìn)一步擴(kuò)展模型的應(yīng)用范圍,DAM-3B-Video在視頻處理方面進(jìn)行了優(yōu)化,通過(guò)逐幀編碼區(qū)域掩碼并整合時(shí)間信息,即使在目標(biāo)被遮擋或處于運(yùn)動(dòng)狀態(tài)時(shí),也能生成準(zhǔn)確的描述。

在數(shù)據(jù)訓(xùn)練方面,英偉達(dá)也采取了創(chuàng)新的策略。為了解決訓(xùn)練數(shù)據(jù)匱乏的問(wèn)題,他們開(kāi)發(fā)了DLC-SDP半監(jiān)督數(shù)據(jù)生成策略,利用分割數(shù)據(jù)集和未標(biāo)注的網(wǎng)絡(luò)圖像,成功構(gòu)建了包含150萬(wàn)局部描述樣本的訓(xùn)練語(yǔ)料庫(kù)。他們還通過(guò)自訓(xùn)練方法不斷優(yōu)化描述質(zhì)量,確保輸出文本的高精準(zhǔn)度。

為了評(píng)估模型的性能,英偉達(dá)團(tuán)隊(duì)還推出了DLC-Bench評(píng)估基準(zhǔn),這一基準(zhǔn)以屬性級(jí)正確性為衡量標(biāo)準(zhǔn),而非傳統(tǒng)的參考文本對(duì)比,從而更準(zhǔn)確地反映了描述質(zhì)量。

在多項(xiàng)基準(zhǔn)測(cè)試中,DAM-3B展現(xiàn)出了卓越的性能。在包括LVIS、Flickr30k Entities等在內(nèi)的七項(xiàng)測(cè)試中,DAM-3B的平均準(zhǔn)確率高達(dá)67.3%,超越了GPT-4o和VideoRefer等領(lǐng)先模型。

DAM-3B的推出,不僅填補(bǔ)了局部描述領(lǐng)域的技術(shù)空白,其創(chuàng)新的上下文感知架構(gòu)和高質(zhì)量數(shù)據(jù)策略還為無(wú)障礙工具、機(jī)器人技術(shù)及視頻內(nèi)容分析等領(lǐng)域帶來(lái)了全新的可能性,為科技應(yīng)用的發(fā)展注入了新的活力。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類(lèi)資訊
全站最新
熱門(mén)內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version
 
主站蜘蛛池模板: 云浮市| 永登县| 依安县| 平潭县| 菏泽市| 工布江达县| 东兰县| 鄂尔多斯市| 逊克县| 大埔县| 龙海市| 鸡西市| 横峰县| 陕西省| 杨浦区| 拉孜县| 昌吉市| 鄢陵县| 肇东市| 江门市| 库尔勒市| 凤冈县| 枣庄市| 长垣县| 南华县| 长垣县| 济源市| 泉州市| 临洮县| 麻栗坡县| 富顺县| 凤冈县| 富裕县| 辛集市| 邵阳县| 东乡族自治县| 开鲁县| 和平区| 临泉县| 桃园县| 吉木萨尔县|