日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

蘋果發(fā)布FastVLM視覺語(yǔ)言模型,加速智能穿戴設(shè)備本地化AI進(jìn)程

   時(shí)間:2025-05-13 18:54:01 來(lái)源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評(píng)論無(wú)障礙通道

蘋果機(jī)器學(xué)習(xí)團(tuán)隊(duì)近日在GitHub平臺(tái)上震撼發(fā)布并開源了一款名為FastVLM的視覺語(yǔ)言模型,這款模型是蘋果自研技術(shù)的又一力作。FastVLM提供了三種不同規(guī)模的版本,分別是0.5B、1.5B和7B,全部基于蘋果特有的MLX框架構(gòu)建,并通過(guò)LLaVA代碼庫(kù)進(jìn)行了深度訓(xùn)練。尤為FastVLM針對(duì)Apple Silicon設(shè)備進(jìn)行了優(yōu)化,旨在提升端側(cè)AI運(yùn)算的效率。

FastVLM的核心組件是一個(gè)創(chuàng)新的混合視覺編碼器,名為FastViTHD。這款編碼器專為處理高分辨率圖像而設(shè)計(jì),旨在實(shí)現(xiàn)高效的VLM性能。據(jù)官方數(shù)據(jù)顯示,F(xiàn)astViTHD的處理速度相較于同類模型提升了3.2倍,而其體積僅為前者的3.6分之一。這一顯著的性能提升得益于其減少的令牌輸出量和大幅縮短的編碼時(shí)間。

技術(shù)文檔揭示,F(xiàn)astVLM不僅保持了高精度,還實(shí)現(xiàn)了高分辨率圖像處理的近實(shí)時(shí)響應(yīng),同時(shí)所需的計(jì)算量遠(yuǎn)低于同類模型。特別是最小版本FastVLM-0.5B,其首詞元響應(yīng)速度比LLaVA-OneVision-0.5B模型快了85倍,而視覺編碼器的體積更是縮小了3.4倍。當(dāng)與Qwen2-7B大語(yǔ)言模型搭配使用時(shí),F(xiàn)astVLM使用單一的圖像編碼器即可超越Cambrian-1-8B等近期的研究成果,首詞元響應(yīng)速度提升了7.9倍。

蘋果技術(shù)團(tuán)隊(duì)表示,F(xiàn)astVLM的開發(fā)是基于對(duì)圖像分辨率、視覺延遲、詞元數(shù)量以及LLM大小的全面效率分析。該模型在延遲、模型大小和準(zhǔn)確性之間找到了最佳的平衡點(diǎn)。這一技術(shù)的潛在應(yīng)用場(chǎng)景指向了蘋果正在積極研發(fā)的智能眼鏡類穿戴設(shè)備。據(jù)多方消息透露,蘋果計(jì)劃在2027年推出與meta Ray-Bans相媲美的AI眼鏡,并可能同期發(fā)布配備攝像頭的設(shè)備。

FastVLM的本地化處理能力為這類設(shè)備提供了有力的支持,使它們能夠在脫離云端的情況下實(shí)現(xiàn)實(shí)時(shí)視覺交互。MLX框架的引入,使得開發(fā)者能夠在Apple設(shè)備上本地訓(xùn)練和運(yùn)行模型,同時(shí)兼容主流的AI開發(fā)語(yǔ)言。FastVLM的推出,無(wú)疑證實(shí)了蘋果正在構(gòu)建一個(gè)完整的端側(cè)AI技術(shù)生態(tài)系統(tǒng)。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
 
主站蜘蛛池模板: 毕节市| 蒙自县| 姜堰市| 三门县| 个旧市| 丁青县| 中牟县| 水城县| 玉溪市| 青岛市| 苏尼特左旗| 凤阳县| 阳泉市| 双柏县| 兴安县| 精河县| 房山区| 灵山县| 汉中市| 特克斯县| 新乡县| 监利县| 昆山市| 茂名市| 汤原县| 芒康县| 通榆县| 武宁县| 阳春市| 泸州市| 庆云县| 鄂州市| 梓潼县| 秭归县| 资源县| 化德县| 灌云县| 临猗县| 达尔| 温州市| 修文县|