日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

英偉達(dá)推出Llama Nemotron Nano VL:視覺-語言模型處理文檔更高效

   時間:2025-06-05 08:21:59 來源:ITBEAR編輯:快訊團(tuán)隊 發(fā)表評論無障礙通道

英偉達(dá)近日在文檔理解領(lǐng)域邁出了重要一步,推出了Llama Nemotron Nano VL視覺-語言模型,這一創(chuàng)新旨在高效且精準(zhǔn)地應(yīng)對復(fù)雜的文檔級理解挑戰(zhàn)。

Llama Nemotron Nano VL模型基于先進(jìn)的Llama 3.1架構(gòu),巧妙融合了CRadioV2-H視覺編碼器和Llama 3.1 8B指令微調(diào)語言模型。這一結(jié)合使得模型能夠同時解析多頁文檔中的視覺和文本元素,支持處理長達(dá)16K的上下文,無論是圖像還是文本序列,都能游刃有余。

為了實現(xiàn)視覺與文本的精準(zhǔn)對齊,該模型采用了投影層和旋轉(zhuǎn)位置編碼技術(shù),這一創(chuàng)新極大地優(yōu)化了token效率,尤其適用于長篇多模態(tài)任務(wù)。無論是面對多圖像輸入還是復(fù)雜的文本解析,Llama Nemotron Nano VL都能展現(xiàn)出卓越的性能。

在模型訓(xùn)練過程中,英偉達(dá)采取了分階段策略。首先,利用豐富的商業(yè)圖像和視頻數(shù)據(jù)集進(jìn)行交錯式圖文預(yù)訓(xùn)練,為模型打下堅實基礎(chǔ)。隨后,通過多模態(tài)指令微調(diào),進(jìn)一步提升模型的交互式提示能力。最后,重新混合純文本指令數(shù)據(jù),以優(yōu)化模型在標(biāo)準(zhǔn)語言模型基準(zhǔn)上的表現(xiàn)。

訓(xùn)練過程中,英偉達(dá)采用了自家的Megatron-LLM框架和Energon數(shù)據(jù)加載器,依托強(qiáng)大的A100和H100 GPU集群完成。在OCRBench v2基準(zhǔn)測試中,Llama Nemotron Nano VL在OCR、表格解析和圖表推理等任務(wù)上展現(xiàn)了領(lǐng)先精度,尤其在結(jié)構(gòu)化數(shù)據(jù)提取(如表格和鍵值對)及布局相關(guān)問題解答中,表現(xiàn)尤為突出,甚至媲美更大規(guī)模的模型。

在部署方面,Llama Nemotron Nano VL同樣表現(xiàn)出色。其設(shè)計靈活,支持服務(wù)器和邊緣推理場景,滿足多樣化的應(yīng)用需求。英偉達(dá)還提供了4-bit量化版本(AWQ),結(jié)合TinyChat和TensorRT-LLM實現(xiàn)高效推理,兼容Jetson Orin等受限環(huán)境。該模型還支持Modular NIM(NVIDIA推理微服務(wù))、ONNX和TensorRT導(dǎo)出,為企業(yè)應(yīng)用提供了豐富的解決方案。

為了進(jìn)一步降低靜態(tài)圖像文檔處理的延遲,英偉達(dá)還引入了預(yù)計算視覺嵌入選項。這一創(chuàng)新使得Llama Nemotron Nano VL在處理圖像文檔時更加高效,為企業(yè)用戶帶來了實質(zhì)性的便利。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 嘉义县| 阿拉尔市| 龙江县| 临漳县| 高淳县| 西畴县| 纳雍县| 信丰县| 农安县| 河津市| 台安县| 扬州市| 内江市| 庆元县| 肇源县| 海盐县| 金塔县| 新安县| 亚东县| 嘉荫县| 乌兰县| 瑞安市| 社旗县| 通许县| 宜黄县| 瑞丽市| 江西省| 农安县| 读书| 慈利县| 灌云县| 萨嘎县| 新竹县| 望奎县| 滨州市| 伊通| 绥化市| 黑龙江省| 响水县| 泰州市| 琼结县|