滾動資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內(nèi)容

英偉達(dá)推出Llama Nemotron Nano VL：視覺-語言模型處理文檔更高效

時間：2025-06-05 08:21:59 來源：ITBEAR編輯：快訊團(tuán)隊 發(fā)表評論無障礙通道

英偉達(dá)近日在文檔理解領(lǐng)域邁出了重要一步，推出了Llama Nemotron Nano VL視覺-語言模型，這一創(chuàng)新旨在高效且精準(zhǔn)地應(yīng)對復(fù)雜的文檔級理解挑戰(zhàn)。

Llama Nemotron Nano VL模型基于先進(jìn)的Llama 3.1架構(gòu)，巧妙融合了CRadioV2-H視覺編碼器和Llama 3.1 8B指令微調(diào)語言模型。這一結(jié)合使得模型能夠同時解析多頁文檔中的視覺和文本元素，支持處理長達(dá)16K的上下文，無論是圖像還是文本序列，都能游刃有余。

為了實現(xiàn)視覺與文本的精準(zhǔn)對齊，該模型采用了投影層和旋轉(zhuǎn)位置編碼技術(shù)，這一創(chuàng)新極大地優(yōu)化了token效率，尤其適用于長篇多模態(tài)任務(wù)。無論是面對多圖像輸入還是復(fù)雜的文本解析，Llama Nemotron Nano VL都能展現(xiàn)出卓越的性能。

在模型訓(xùn)練過程中，英偉達(dá)采取了分階段策略。首先，利用豐富的商業(yè)圖像和視頻數(shù)據(jù)集進(jìn)行交錯式圖文預(yù)訓(xùn)練，為模型打下堅實基礎(chǔ)。隨后，通過多模態(tài)指令微調(diào)，進(jìn)一步提升模型的交互式提示能力。最后，重新混合純文本指令數(shù)據(jù)，以優(yōu)化模型在標(biāo)準(zhǔn)語言模型基準(zhǔn)上的表現(xiàn)。

訓(xùn)練過程中，英偉達(dá)采用了自家的Megatron-LLM框架和Energon數(shù)據(jù)加載器，依托強(qiáng)大的A100和H100 GPU集群完成。在OCRBench v2基準(zhǔn)測試中，Llama Nemotron Nano VL在OCR、表格解析和圖表推理等任務(wù)上展現(xiàn)了領(lǐng)先精度，尤其在結(jié)構(gòu)化數(shù)據(jù)提取（如表格和鍵值對）及布局相關(guān)問題解答中，表現(xiàn)尤為突出，甚至媲美更大規(guī)模的模型。

在部署方面，Llama Nemotron Nano VL同樣表現(xiàn)出色。其設(shè)計靈活，支持服務(wù)器和邊緣推理場景，滿足多樣化的應(yīng)用需求。英偉達(dá)還提供了4-bit量化版本（AWQ），結(jié)合TinyChat和TensorRT-LLM實現(xiàn)高效推理，兼容Jetson Orin等受限環(huán)境。該模型還支持Modular NIM（NVIDIA推理微服務(wù)）、ONNX和TensorRT導(dǎo)出，為企業(yè)應(yīng)用提供了豐富的解決方案。

為了進(jìn)一步降低靜態(tài)圖像文檔處理的延遲，英偉達(dá)還引入了預(yù)計算視覺嵌入選項。這一創(chuàng)新使得Llama Nemotron Nano VL在處理圖像文檔時更加高效，為企業(yè)用戶帶來了實質(zhì)性的便利。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

張紀(jì)中與樊馨蔓糾葛未了：商業(yè)關(guān)聯(lián)存，隱私侵權(quán)案賠款已執(zhí)行

06-06

廣州代孕公司被嚴(yán)懲：17歲女孩涉代孕案，公司被罰25萬

06-06

頭皮洗護(hù)也“內(nèi)卷”，面部護(hù)理成分進(jìn)軍洗發(fā)水市場！

這些曾在抗老精華、敏感肌修護(hù)產(chǎn)品中驗證過的成分和技術(shù)，正被系統(tǒng)性遷移至頭皮洗護(hù)賽道。表面上看，這是一次從基礎(chǔ)功能向深度護(hù)理的品類升級，但本質(zhì)上，它更像頭皮洗護(hù)賽道遇到了卡點，想借助已有的認(rèn)知紅利，在新的細(xì)…

06-06

字節(jié)跳動SeedEdit 3.0：圖像編輯新升級，處理效果更自然高效

06-06

薇婭夫婦悄然復(fù)出？短視頻引流至小程序，商品售罄引關(guān)注

三言發(fā)現(xiàn)，薇婭老公、謙尋控股董事長董海鋒在通過短視頻為私域帶貨引流，短視頻中薇婭本人出鏡，然后引導(dǎo)用戶加入社群，再在社群里發(fā)小程序完成帶貨的整個環(huán)節(jié)。而且從商品分類中，大致能判斷才組織過3次購物活動，分別…

06-06

SpaceX跨界半導(dǎo)體封裝？自建FOPLP產(chǎn)能強(qiáng)化衛(wèi)星垂直整合

06-06

宇樹科技王興興：人形機(jī)器人先跳舞格斗，終極目標(biāo)解放人類生產(chǎn)力

06-06

云海肴陷字節(jié)跳動食物中毒案，被指供應(yīng)含菌菜品或遭重罰

06-06

我國5G基站突破443萬，“鄉(xiāng)鄉(xiāng)通5G”已成現(xiàn)實，5G應(yīng)用遍地開花

06-06

字節(jié)跳動Seed團(tuán)隊推出SeedEdit 3.0，4K圖像編輯更精細(xì)自然

新榜訊 6月6日，字節(jié)跳動Seed團(tuán)隊官宣正式發(fā)布圖像編輯模型SeedEdit 3.0。據(jù)悉，此模型具備處理并生成4K圖像的能力，在對編輯區(qū)域進(jìn)行精細(xì)且自然處理時，還能高保真地保留其他信息。展望未來，該團(tuán)隊除…

06-06

2025搜狐極限探索者大會：大咖云集，致敬無畏探索，共繪戶外新篇章！

06-06

湖北新文道26考研集訓(xùn)營啟航，高標(biāo)準(zhǔn)嚴(yán)要求助力學(xué)子圓夢

06-06

Acloudear司享網(wǎng)絡(luò)揭秘：流量時代后，品牌如何實現(xiàn)精準(zhǔn)增長新飛躍？

06-06

攝影秘籍：如何“引導(dǎo)”視線，讓每一張照片都講述深刻故事？

06-06

AI+CRM引領(lǐng)企業(yè)數(shù)智化轉(zhuǎn)型，阿里云Salesforce全國CIO大會受熱捧

06-06

點擊查看更多 +

全站最新

下半年四大方盒子SUV來襲，誰能脫穎而出成爆款？

袁姍姍攜手凱度，巧改潘長江父女廚房，演繹中西合璧新風(fēng)尚！

全民監(jiān)工！奇瑞風(fēng)云A8硬核拆解上市，7.99萬起售真省真值

鴻蒙電腦，打工人效率與快樂的雙重升級秘籍！

張紀(jì)中與樊馨蔓糾葛未了：商業(yè)關(guān)聯(lián)存，隱私侵權(quán)案賠款已執(zhí)行

廣州代孕公司被嚴(yán)懲：17歲女孩涉代孕案，公司被罰25萬

熱門內(nèi)容

本欄最新

張紀(jì)中與樊馨蔓糾葛未了：商業(yè)關(guān)聯(lián)存，隱私侵權(quán)案賠款已執(zhí)行

廣州代孕公司被嚴(yán)懲：17歲女孩涉代孕案，公司被罰25萬

字節(jié)跳動SeedEdit 3.0：圖像編輯新升級，處理效果更自然高效

薇婭夫婦悄然復(fù)出？短視頻引流至小程序，商品售罄引關(guān)注

SpaceX跨界半導(dǎo)體封裝？自建FOPLP產(chǎn)能強(qiáng)化衛(wèi)星垂直整合

宇樹科技王興興：人形機(jī)器人先跳舞格斗，終極目標(biāo)解放人類生產(chǎn)力

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

英偉達(dá)推出Llama Nemotron Nano VL：視覺-語言模型處理文檔更高效

日本精品一区二区三区高清久久