日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

Hugging Face發布SmolVLA:4.5億參數開源,消費級硬件也能跑的機器人模型!

   時間:2025-06-09 17:22:00 來源:ITBEAR編輯:快訊團隊 IP:北京 發表評論無障礙通道

Hugging Face近期發布了一款名為SmolVLA的開源機器人模型,該模型擁有4.5億參數,主打高普適性,旨在降低開發者進入機器人智能領域的門檻。尤為引人注目的是,SmolVLA能夠在如MacBook Pro這樣的消費級硬件上運行,無需依賴昂貴的專業設備。

在機器人模型領域,業界通常采用“視覺-語言-行動”(VLA)框架,試圖在單一架構內整合感知、理解和決策能力,以實現機器人的自主復雜任務執行。然而,這類模型訓練成本高昂,且多為閉源項目,依賴于高性能硬件、龐大的工程資源和私有數據集。

為了打破這一現狀,Hugging Face推出了SmolVLA,一個輕量級且開源的模型。它使用公開數據集進行訓練,旨在推動通用機器人智能體的研究發展,并降低愛好者的入門成本。這一舉措有望吸引更多開發者參與到機器人智能的研究與應用中來。

SmolVLA在模型架構上進行了創新,結合了Transformer結構與flow-matching解碼器,并采用了四項關鍵優化技術。首先,通過跳過視覺模型中的一半層數,提升了推理速度并減小了模型體積。其次,交替融合自注意力與交叉注意力模塊,提高了多模態信息的整合效率。減少視覺Token數量以提升處理效率,并采用更輕量的SmolVLM2作為視覺編碼器,進一步降低了硬件要求。

在訓練策略上,SmolVLA采用了預訓練與微調相結合的方法。首先通過通用操作數據進行預訓練,然后針對特定任務進行微調,以提升模型的適應能力。盡管SmolVLA的訓練數據遠少于現有其他VLA模型,但Hugging Face表示,該模型在模擬環境和真實場景中的表現與大型模型相當,甚至在部分任務上實現了超越。

SmolVLA還引入了“異步推理架構”(Asynchronous Inference Stack),將感知處理(如視覺和語音理解)與動作執行進行解耦,使機器人在面對快速變化的環境時能夠做出更及時的響應,從而大幅提升了其實用性。

Hugging Face強調,用戶無需花費高昂成本采購專用AI訓練服務器,只需使用如MacBook Pro等消費級硬件即可運行SmolVLA-450M模型。同時,用戶還可以考慮采購Hugging Face推出的低成本機器人平臺(如SO-100、SO-101和LeKiwi),以進一步降低成本。

為了驗證SmolVLA的性能,Hugging Face進行了多項基準測試。在LIBERO與meta-World等模擬測試平臺上,SmolVLA的表現優于Octo、OpenVLA等業界競品。而在使用真實機器人SO-100和SO-101進行抓取、放置、堆疊與分類任務時,SmolVLA也展現出了卓越的性能。

目前,SmolVLA的基礎模型已在Hugging Face平臺上上線,完整的訓練方法也已在GitHub上公開。感興趣的開發者可以訪問Hugging Face的項目頁面(https://huggingface.co/lerobot/smolvla_base),獲取更多關于SmolVLA的信息和資源。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 会泽县| 乌鲁木齐市| 唐山市| 铜川市| 吉安市| 玉山县| 卓资县| 内乡县| 西安市| 久治县| 长春市| 长沙县| 安达市| 灵寿县| 博罗县| 沅江市| 乡城县| 伊金霍洛旗| 津市市| 文化| 渑池县| 海阳市| 凤城市| 浏阳市| 都匀市| 巴彦县| 婺源县| 邳州市| 新建县| 芜湖县| 雅江县| 弥勒县| 化州市| 海阳市| 安吉县| 隆昌县| 松江区| 米林县| 富民县| 白城市| 宜都市|