在人工智能領域,大模型的部署正逐漸成為產業界的焦點,尤其是在端側設備的部署上。小米小愛同學端側AI負責人楊永杰,近期分享了其團隊在大模型端側部署方面的探索與實踐。
面對手機、車載、IoT等設備的嚴格要求,大模型的部署成為了一項復雜的工程挑戰。這些設備對模型體積、推理時延、功耗以及更新機制都有著極高的要求。楊永杰的團隊從架構、系統和算法三個層面入手,致力于解決這些問題。
在推理框架方面,小米團隊自研了一款針對大模型的推理框架,實現了180 tokens/s的實時推理性能。這一性能的提升,得益于團隊在框架層全棧自研的努力,以及對各個模塊性能的細致優化。同時,團隊還借鑒了云端的成熟優化手段,并針對端側進行了適配和改進。
在模型優化方面,團隊采用了LoRA插件化+共享基座模型的方案,支持多業務復用。這一方案不僅提高了模型的利用率,還在推理性能和資源占用上實現了極致優化。通過為不同業務單獨訓練對應的LoRA模塊,團隊實現了在資源有限的設備上支持多個業務的能力。
楊永杰指出,盡管端側大模型被視為未來的重要方向,但在商業化落地方面仍面臨一些挑戰。其中,端側設備本身的資源限制是一個主要問題。無論是算力還是帶寬,相比云端來說都比較有限。因此,團隊在模型量化、推理速度等方面進行了大量優化,以適配端側設備的限制。
在并發管理方面,由于端側設備的NPU本身不支持并發推理,團隊在架構上做了并發管理,通過調度和切換機制,盡量保障各條業務鏈路在預期時間內完成推理。同時,團隊還采用了投機推理(Speculative Decoding)優化,在端側實現了高達7~10倍的decoding加速,大幅緩解了端側推理慢的問題。
在跨芯片平臺部署方面,團隊進行了模塊化、通用化的設計,以確保兼容性與性能的平衡。通過模塊化、后端解耦的設計,團隊成功適應了多種端側芯片平臺的部署需求。
楊永杰還分享了團隊在性能優化方面的一些經驗。他表示,團隊在優化時采用了多種技術組合的方式,如低比特量化、并行解碼、帶寬控制等。這些技術都是盡可能組合使用的,以最大化優化效果。同時,團隊還根據業務的實際需求,優先實現了那些技術價值較大、適用面更廣的優化方式。
對于未來,楊永杰認為端側大模型的突破將依賴于硬件能力的提升和模型架構的演進。隨著新一代面向大模型的端側芯片的出現,端側模型的能力將大幅增強,更多業務也將有機會真正落地。同時,模型架構的變化也將為端側大模型帶來新的機遇,如Linear Attention架構等。
楊永杰將于6月27~28日在北京舉辦的AICon全球人工智能開發與應用大會上發表演講,分享其團隊自研的大模型推理框架在實際業務中的落地實踐。相信這一分享將為業界帶來更多啟示和思考。