在首屆聚焦全功能GPU的開發者大會上,摩爾線程以MUSA為核心,推出了一系列覆蓋芯片、硬件及集群的全新產品,構建起從云到端的完整技術生態。這場以“全功能GPU”為定位的發布,標志著國產GPU在算力密度、能效比及場景覆蓋上實現關鍵突破。
MUSA架構作為摩爾線程的核心技術底座,已形成覆蓋芯片設計、指令集、編程模型到軟件生態的完整技術標準。其第五代架構“花港”在算力密度上提升50%,單位能效提升10倍,并首次支持FP4至FP64全精度計算,滿足AI訓練、科學計算及圖形渲染的多元需求。通過MTLink高速互聯技術,該架構可支撐十萬卡級智算集群,為超大規模模型訓練提供底層支撐。在低精度計算優化方面,新增的MTFP6/MTFP4加速技術及混合精度端到端引擎,使Transformer類模型的推理效率顯著提升。
基于“花港”架構,摩爾線程同步推出三款芯片:面向AI訓推一體的高性能GPU“華山”、專注圖形渲染的“廬山”及智能SoC芯片“長江”。其中,“華山”芯片實現從FP4到FP64的全精度覆蓋,其MTFP4/MTFP6加速技術使Transformer吞吐量提升3倍,硬件級量化/反量化模塊直接嵌入芯片設計,為萬億參數模型訓練提供硬件支撐;“廬山”芯片則通過AI生成式渲染架構(AGR)和硬件光追引擎,將3A游戲渲染性能提升15倍,AI計算性能較前代提升64倍,標志著國產顯卡進入“光追+AI渲染”時代;“長江”作為端側SoC芯片,提供50TOPS異構算力,面向具身智能、車載計算等場景,填補國產端側AI芯片的空白。
硬件產品層面,摩爾線程發布兩款開發者工具:MTT AIBOOK個人智算平臺與AICube桌面計算魔方。AIBOOK搭載基于Linux內核的MT AIOS系統,兼容Windows與安卓應用,預置完整AI開發環境,支持2K高清渲染及本地大模型運行,其內置的智能體“小麥”可實現文本生圖、語音交互等功能;AICube則以緊湊設計提供高性能推理能力,滿足桌面端復雜任務需求。夸娥(KUAE 2.0)萬卡智算集群實現Dense大模型60%、MOE大模型40%的算力利用率,有效訓練時間占比超90%,并成功復現DeepSeek V3的FP8訓練流程,自研FP8 GEMM算力利用率達90%,刷新國產GPU推理性能紀錄。
軟件生態構建方面,MUSA 5.0軟件棧完成全棧工具鏈升級:新增對JAX、TensorFlow框架的支持,強化PyTorch、PaddlePaddle適配;訓練生態擴展至強化學習框架MT VeRL,推理引擎優化自研MTT引擎與TensorX,兼容SGLang、vLLam等新興工具;核心庫muDNN實現GEMM效率超98%,編譯器性能提升3倍。摩爾線程同步開源MATE算子庫、MUTLASS通信庫等核心組件,并推出面向AI+渲染融合的編程語言muLang,發布GPU中間表示語言MTX 1.0,賦予開發者更高調優自由度。
開發者生態建設成為摩爾線程戰略重點。其打造的摩爾學院平臺已聚集20萬開發者,目標培育百萬級MUSA開發者社群。通過與全國200所高校合作,摩爾線程以產教融合、聯合實驗室及“繁星計劃”競賽等形式,從教育源頭培養熟悉國產架構的技術人才。這種“從芯片到生態、從硬件到人才”的全鏈路布局,正推動國產GPU從“可用”向“好用”跨越——當開發者開始思考“下一個項目能否全在MUSA生態中完成”時,國產GPU的真正突破已然到來。









