人工智能領域迎來新突破,DeepSeek在GitHub平臺開源了一款名為LPLB(Linear-Programming-Based Load Balancer)的并行負載均衡器。這款基于線性規劃技術的工具,專門針對混合專家(MoE)模型的專家并行工作負載分配進行優化,其設計理念與英偉達在萬卡GPU集群中的調度機制存在異曲同工之妙。
據技術文檔披露,LPLB的核心創新在于將調度層級從計算單元(SM)提升至整個處理流水線。英偉達此前通過NVLink連接的GPU集群中,采用類似機制為不同內核分配計算資源,而DeepSeek的解決方案通過抽象化處理,實現了更宏觀的負載調控。目前該項目仍處于早期研發階段,具體性能提升幅度尚在持續評估中。
該工具通過三重機制實現動態均衡:首先利用嵌入的EPLB模塊對專家進行工作負載統計驅動的動態重排序;其次構建考慮硬件拓撲結構的專家副本體系;最后針對每個訓練批次求解最優Token分配方案。其內置的線性規劃求解器采用單SM內點法,并調用NVIDIA的cuSolverDx和cuBLASDx庫進行矩陣運算,工作負載數據可通過用戶輸入、torch.distributed框架或Deep-EP內部通信器獲取。
作為EPLB的升級版本,LPLB重點解決MoE訓練中的動態失衡問題。EPLB主要處理數據分布導致的靜態不均衡現象,而LPLB則針對小批次訓練中出現的隨機波動。具體實現上,系統為每個原始專家配置冗余專家,在GPU間形成傳輸通道,通過求解線性規劃問題重新分配Token流,在通道容量限制下最小化組內負載差異。為降低通信開銷,系統采用NVLINK和NVSHMEM技術替代傳統torch.distributed.allreduce方法。
開發團隊設計了多種硬件拓撲支持方案。Cube模式在8GPU子組內構建立方體圖結構,要求每個GPU至少承載2個專家;Hypercube模式擴展至16GPU規模,通過移除對角邊優化跨節點通信;Torus模式則在節點內外GPU間復制專家形成環面結構,適用于全局均衡但節點內通信效率略遜于Cube模式。用戶可通過修改r2o矩陣自定義拓撲結構。
技術文檔同時指出當前存在的三大局限:成本估算模型未考慮矩陣乘法的非線性時間成本,可能導致次優調度;求解器在節點內優化耗時約100微秒,對小批次任務影響顯著;極端負載不均衡場景下,因避免多副本分配給同一原始專家的限制,性能可能弱于EPLB方案。
對于部署環境,系統要求CUDA工具包版本不低于12.6.3,強烈建議搭配DeepEP框架使用。安裝流程包含數學庫下載、環境變量配置和pip安裝三個步驟,并提供詳細的拓撲定義接口示例。開發者可通過GitHub倉庫(https://github.com/deepseek-ai/LPLB)獲取完整代碼和文檔,示例代碼展示了如何配置冗余專家拓撲并執行負載重定向操作。











