本周五,谷歌震撼發布了其最新的端側多模態大模型Gemma3n,并慷慨地將其開源。這一創新之舉意味著,用戶在手機、平板和筆記本等設備上,無需依賴云端,就能享受到以往只有云端才能提供的高級多模態功能。
Gemma3n的兩大版本E2B和E4B,盡管參數量分別達到50億和80億,但通過一系列架構設計上的巧思,它們對內存的需求卻極其友好。E2B版本僅需2GB內存,而E4B也只需3GB,這相當于傳統20億和40億參數模型的內存占用。更令人稱奇的是,這兩個版本均原生支持圖像、音頻、視頻和文本的全方位輸入處理,覆蓋了140種文本語言和35種語言的多模態理解。
在LMArena評測中,E4B版本以超過1300分的成績脫穎而出,成為首個突破這一基準的百億參數以下模型。這一成就不僅展示了Gemma3n在多語言能力上的卓越,還顯著提升了數學、編碼和邏輯推理等多方面的性能。
技術創新方面,Gemma3n引入了四大突破性架構。其中,MatFormer架構如同俄羅斯套娃,一個模型內嵌多種尺寸,使得E4B在訓練時能同步優化E2B子模型,為用戶提供更多性能選擇。Mix-n-Match技術允許用戶根據需求在E2B和E4B之間自由創建自定義尺寸的模型。
每層嵌入(PLE)技術的引入,使得大部分參數可以在CPU上高效計算,只有關鍵的Transformer權重需要存儲在加速器內存中,這極大提升了內存使用效率,同時保證了模型的高質量。而KV Cache共享技術則專為長內容處理而設計,通過鍵值緩存共享,預填充性能較之前的Gemma34B提升了整整兩倍,顯著加快了長序列處理的首個token生成速度。
在音頻和視覺處理方面,Gemma3n同樣表現不俗。音頻編碼器基于通用語音模型(USM),支持自動語音識別和語音翻譯,可處理長達30秒的音頻片段。而視覺編碼器則采用了MobileNet-V5-300M,支持多種分辨率輸入,在Google Pixel設備上可達到每秒60幀的處理速度。
Gemma3n在語音翻譯領域尤其出色,特別是在英語與西班牙語、法語、意大利語、葡萄牙語之間的轉換上。通過先進的蒸餾技術,MobileNet-V5編碼器相比基線模型實現了13倍的加速,參數減少了46%,內存占用降低了4倍,同時保持了更高的準確率。
谷歌已將Gemma3n的模型和權重在Hugging Face平臺上開源,并提供了詳盡的文檔和開發指南。自去年首個Gemma模型發布以來,該系列模型已累計下載超過1.6億次,充分顯示了其強大的開發者生態和廣泛的影響力。
Gemma3n的發布無疑標志著端側AI的一個全新里程碑,將云端級別的多模態能力直接帶到了用戶設備上,為移動應用和智能硬件等領域開辟了廣闊的應用前景。開發者們可以通過訪問Hugging Face平臺(https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4)和谷歌官方文檔(https://ai.google.dev/gemma/docs/gemma-3n),深入了解并利用這一強大工具。