在科創板成功上市的國產GPU企業摩爾線程,近日舉辦了首屆MUSA開發者大會,會上不僅展示了全新GPU架構“花港”,還推出了三款基于該架構的芯片產品,引發行業廣泛關注。作為國內GPU領域被視為最接近英偉達的企業,摩爾線程的產品迭代路徑與英偉達頗為相似,自2022年起,每年都會發布新一代GPU架構。
回顧其發展歷程,2022年摩爾線程推出了春曉架構,并同步發布了面向云計算的第一代AI智算板卡S3000;次年,曲院架構問世,對應第一代訓推一體智算板卡S4000;到了2024年,平湖架構發布,同時推出了板卡S5000。此次大會上,摩爾線程再次刷新產品矩陣,不僅帶來了算力密度提升50%的新架構花港,還展示了華山、廬山、長江三款芯片,分別聚焦AI訓推、圖形渲染和系統級芯片領域。
新架構花港在技術特性上實現了多項突破,支持從FP4到FP64的全精度計算,能夠滿足十萬卡以上規模的智算集群擴展需求,并內置了AI生成式渲染架構。這一架構的推出,標志著摩爾線程在計算精度和集群規模上邁出了重要一步。與此同時,新一代芯片華山在計算精度上進一步優化,開始支持FP4精度計算,與英偉達當前主力芯片Blackwell的精度支持范圍一致。
在算力表現方面,摩爾線程此前公開的S4000板卡數據顯示,其在FP32、TF32、FP16、INT8精度下的算力分別為25 TFLOPS、49 TFLOPS、98 TFLOPS、196 TOPS,最大功耗為450W。相比之下,英偉達2020年推出的A100 80GB PCle版在相同精度下的算力分別為19.5TFLOPS、156TFLOPS、312TFLOPS、624TOPS,最大功耗為300W。盡管S4000在部分精度下的算力表現和功耗表現不及A100,但摩爾線程在技術迭代上的速度不容小覷。
關于S5000的具體性能,此次大會上摩爾線程創始人、董事長兼CEO張建中透露了更多細節。他表示,在DeepSeek-R1全量模型分布式推理場景中,S5000的Prefill Only、Decode單卡吞吐量分別達到H20等常見芯片產品的約2.5倍和1.3倍。而新一代華山芯片的浮點計算能力則介于英偉達Blackwell和Hopper之間,訪存帶寬與Blackwell接近,高速互聯帶寬則位于Hopper和Blackwell之間。
隨著AI大模型訓練對集群規模的需求不斷提升,摩爾線程也在積極布局更大規模的智算集群。此次大會上,摩爾線程推出了萬卡智算集群,并宣布了其集群規模的擴張計劃。張建中表示,2024年摩爾線程已推出第一代千卡集群,今年成功擴展至1萬卡,未來還將繼續向10萬卡、50萬卡、100萬卡的目標邁進。
然而,萬卡智算集群的工程實現并非易事。張建中指出,超大集群的供電及液冷散熱、超大規模互聯組網及通信、集群訓練有效算力、訓練穩定性與可用性、模型訓練精度與效果測評等方面均存在技術挑戰。同時,大模型訓練的發展趨勢也要求行業在模型參數規模、訓練集群規模、訓練精度等方面不斷突破,未來需要解決高效并行訓練、低精度訓練、高性能通信等一系列問題。
除了硬件產品的更新,摩爾線程此次還推出了具身智能仿真訓練平臺和AI算力筆記本MTT AIBOOK,進一步豐富了其產品生態。在資本市場方面,摩爾線程自科創板上市以來,股價表現波動較大。發行價為114.28元/股,12月11日收盤價曾超過900元/股,隨后有所回調,12月19日收盤價為664.1元/股。盡管公司尚未實現盈利,截至今年6月底,累計未彌補虧損達16億元,但摩爾線程預計2027年可實現合并報表盈利,不過這一前瞻性信息仍存在不確定性。











