近日,IETF(互聯網工程任務組)正式發布了由移動云主導制定的國際標準RFC9793,該標準名為《BGPExtensionsforBitIndexExplicitReplication(BIER)》,針對當前AI大模型在MoE(MixtureofExperts)架構下面臨的專家并行通信瓶頸問題,提出了一種創新的解決方案。
隨著AI技術步入萬億參數大模型的新時代,MoE架構憑借其出色的性能,成為了AI模型的主流選擇。然而,這一架構在AI大模型的訓練和推理過程中,專家并行所需的All-to-All通信模式對網絡帶寬提出了極高的要求。特別是在超節點scale-up網絡中,傳統的通信模式難以滿足這一需求,成為了制約AI大模型進一步發展的關鍵因素。
移動云此次主導制定的BIER標準,通過引入高效組播方案,成功打破了這一瓶頸。該方案利用無狀態組播的特性,實現了AI大模型門控路由器的實時靈活指定,同時能夠在數據報文中攜帶組播接收者列表,從而避免了復雜耗時的組播樹建立過程。這一特性與MoE架構中的門控路由器機制高度契合,門控路由器能夠根據專家的實時負載水平等因素,為每個Token動態選擇對應的TopN專家。通過這種創新的技術方案,All-to-All通信效率得到了顯著提升,進而提高了AI大模型的訓練和推理效率。
此次BIER標準的發布,不僅標志著移動云在技術創新方面取得了國際權威認可,也彰顯了中國在全球互聯網標準體系建設中的重要地位。這一標準的制定,為解決MoE架構AI大模型的關鍵通信瓶頸問題提供了國際通用的技術規范,有望廣泛應用于AI超節點產品,進一步提升MoE架構大模型的訓練和推理通信效率,降低大模型訓練和推理的成本。
在云智算戰略持續深化的背景下,AI大模型的訓練和推理效率已成為產業發展的核心競爭力。BIER標準的發布,將有力推動AI技術在各行各業的標準化、普惠化應用,為數字化轉型提供強有力的技術支撐。同時,這也為移動云在未來繼續發揮技術優勢,加強AI大模型等前沿技術領域的自主創新奠定了堅實基礎。