日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

谷歌發布Gemma3n端側多模態模型,手機平板也能體驗云端級AI功能

   時間:2025-06-27 11:47:00 來源:ITBEAR編輯:快訊團隊 IP:北京 發表評論無障礙通道

本周五,谷歌震撼發布了其最新的端側多模態大模型Gemma3n,并慷慨地將其開源。這一創新之舉意味著,用戶在手機、平板和筆記本等設備上,無需依賴云端,就能享受到以往只有云端才能提供的高級多模態功能。

Gemma3n的兩大版本E2B和E4B,盡管參數量分別達到50億和80億,但通過一系列架構設計上的巧思,它們對內存的需求卻極其友好。E2B版本僅需2GB內存,而E4B也只需3GB,這相當于傳統20億和40億參數模型的內存占用。更令人稱奇的是,這兩個版本均原生支持圖像、音頻、視頻和文本的全方位輸入處理,覆蓋了140種文本語言和35種語言的多模態理解。

在LMArena評測中,E4B版本以超過1300分的成績脫穎而出,成為首個突破這一基準的百億參數以下模型。這一成就不僅展示了Gemma3n在多語言能力上的卓越,還顯著提升了數學、編碼和邏輯推理等多方面的性能。

技術創新方面,Gemma3n引入了四大突破性架構。其中,MatFormer架構如同俄羅斯套娃,一個模型內嵌多種尺寸,使得E4B在訓練時能同步優化E2B子模型,為用戶提供更多性能選擇。Mix-n-Match技術允許用戶根據需求在E2B和E4B之間自由創建自定義尺寸的模型。

每層嵌入(PLE)技術的引入,使得大部分參數可以在CPU上高效計算,只有關鍵的Transformer權重需要存儲在加速器內存中,這極大提升了內存使用效率,同時保證了模型的高質量。而KV Cache共享技術則專為長內容處理而設計,通過鍵值緩存共享,預填充性能較之前的Gemma34B提升了整整兩倍,顯著加快了長序列處理的首個token生成速度。

在音頻和視覺處理方面,Gemma3n同樣表現不俗。音頻編碼器基于通用語音模型(USM),支持自動語音識別和語音翻譯,可處理長達30秒的音頻片段。而視覺編碼器則采用了MobileNet-V5-300M,支持多種分辨率輸入,在Google Pixel設備上可達到每秒60幀的處理速度。

Gemma3n在語音翻譯領域尤其出色,特別是在英語與西班牙語、法語、意大利語、葡萄牙語之間的轉換上。通過先進的蒸餾技術,MobileNet-V5編碼器相比基線模型實現了13倍的加速,參數減少了46%,內存占用降低了4倍,同時保持了更高的準確率。

谷歌已將Gemma3n的模型和權重在Hugging Face平臺上開源,并提供了詳盡的文檔和開發指南。自去年首個Gemma模型發布以來,該系列模型已累計下載超過1.6億次,充分顯示了其強大的開發者生態和廣泛的影響力。

Gemma3n的發布無疑標志著端側AI的一個全新里程碑,將云端級別的多模態能力直接帶到了用戶設備上,為移動應用和智能硬件等領域開辟了廣闊的應用前景。開發者們可以通過訪問Hugging Face平臺(https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4)和谷歌官方文檔(https://ai.google.dev/gemma/docs/gemma-3n),深入了解并利用這一強大工具。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 论坛| 成安县| 大英县| 陆河县| 津南区| 云龙县| 长沙县| 吴忠市| 邯郸市| 建水县| 南部县| 乡城县| 文登市| 易门县| 上虞市| 丰镇市| 乌什县| 荥经县| 青阳县| 北碚区| 西乌珠穆沁旗| 汶上县| 定边县| 莱州市| 镇平县| 花莲市| 综艺| 静安区| 高碑店市| 惠来县| 翁源县| 突泉县| 拉萨市| 信阳市| 莱芜市| 西畴县| 蓬莱市| 凤翔县| 科技| 纳雍县| 麦盖提县|