11 月 28 日消息,近日,摩爾線程正式發(fā)布 PyTorch 深度學習框架的 MUSA 擴展庫 ——Torch-MUSA v2.7.0,新版本在功能集成、性能優(yōu)化與硬件支持方面實現(xiàn)進一步突破。Torch-MUSA 在短短一個月內,連續(xù)完成 v2.5.0 和 v2.7.0 兩次版本更新。
據(jù)介紹,自 v2.5.0 起,Torch-MUSA 版本號已與 PyTorch 主版本號保持同步,便于開發(fā)者進行版本識別與管理。新版本進一步集成 muSolver 與 muFFT 等計算加速庫,顯著提升復雜計算任務的執(zhí)行效率;同時新增對統(tǒng)一內存設備(Unified Memory)的 UMM 支持,有效優(yōu)化內存使用效率。
新版本繼續(xù)保持與最新 MUSA SDK 的兼容性,支持使用 MUSA SDK 4.2.0 至 4.3.0 及更高版本進行編譯。目前 Torch-MUSA 專屬支持的算子總數(shù)已超過 1050 個,系統(tǒng)在性能與穩(wěn)定性方面均實現(xiàn)進一步提升。
v2.7.0 版本主要更新內容:
新增特性
新增 muFFT 與 muSolver 庫集成,大幅擴展計算能力;
在面向邊緣計算的 SoC 設備中支持統(tǒng)一內存管理,基于 Arm 架構的 UMA(統(tǒng)一內存尋址)設計,實現(xiàn) GPU 與 CPU 共享同一物理內存空間,顯著降低模型運行過程中的內存開銷,具體包括:消除 GPU 端重復內存分配;減少主機與設備間的內存拷貝;GPU 可直接訪問由 CPU 分配器申請的內存空間。
算子擴展與性能優(yōu)化
新增支持包括 ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin / amax / prod.dim_int、glu_bwd 等多個算子;
新增基礎 Sparse (CSR) 操作支持;
擴充量化算子支持范圍;
修復 torch.norm 形狀錯誤問題;
支持 reduce_sum 的 uint8 輸入與 int64 輸出;
C++ 擴展新增支持 tensor.is_musa 方法;
修復空輸入下 argmax/argmin 的異常行為;
優(yōu)化 var / std、pad、convolution3d、layer_norm 等操作的執(zhí)行效率。
系統(tǒng)功能增強
開放 torch.musa.mccl.version 接口;
支持 getCurrentMUSABlasHandle 與 getCurrentMUSABlasLtHandle;
優(yōu)化 FSDP2 流水線并行策略,降低訓練內存占用。
從官方獲悉,Torch-MUSA 將繼續(xù)跟進 PyTorch 的版本更新,計劃下一版本支持 PyTorch 2.9.0,并進一步優(yōu)化性能與功能。
Torch-MUSA 開源地址:https://github.com/MooreThreads/torch_musa










