上海交通大學高性能計算中心近日宣布,其最新打造的國產智算算力基礎設施“致遠一號”已全面投入使用。該平臺憑借1024張華為昇騰910B加速卡,實現了FP16峰值算力313P的突破,成為全國高校中規模最大的同類設施。平臺不僅在硬件層面具備強大性能,還本地部署了包括DeepSeek在內的8款主流大模型,為教學科研提供多元化支持。
在硬件配置方面,“致遠一號”采用分層架構設計。智算集群區由128臺Atlas 800T A2服務器組成,配備1024張NPU卡,峰值算力達320P。每臺服務器采用5機柜部署方案,單柜功率30kW。網絡系統采用三平面架構:參數面通過200GE RoCE網絡實現1:1收斂,業務面依托100GE SDI智能網卡構建,樣本面則采用25GE RoCE網絡。云平臺區基于HCSO和ModelArts框架,整合101臺鯤鵬Taishan 200服務器與60臺網絡設備,提供總計4.6PB的混合云存儲能力。
存儲系統采用全閃與混閃混合架構,其中全閃存儲區配備43臺Pacific 9950節點,提供6.5PB容量;混閃存儲區部署12臺Pacific 9550節點,容量達2.5PB。這種設計既保障了并行計算的高效性,又能滿足大規模模型訓練的數據吞吐需求。通用計算池通過101臺CPU節點形成5000+ vCPU資源,支持IaaS、PaaS、SaaS全棧云服務,具備異構算力調度與彈性部署能力。
機房建設充分體現節能理念,52個47U加高機柜分布在3個封閉微模塊中。其中34個機柜用于智能計算服務器,單柜功率30kW;18個機柜承載存儲和網絡設備,單柜功率20kW。供電系統采用小母線架構,配備雙路PDU供電,存儲和網絡機柜額外接入UPS設備,可在斷電情況下維持15分鐘持續運行。制冷系統配置30臺60kW風冷列間精密空調,通過“N+2”冗余設計和氟泵雙循環技術,將全年綜合PUE控制在1.3左右。
該平臺的計算節點配置呈現差異化特征。CPU節點采用雙路Kunpeng 920處理器,內存配置包含2048GB、1024GB和512GB DDR5(4800MHZ)三種規格。NPU節點則搭載四路Kunpeng 920處理器,每節點集成8顆昇騰AI處理器。存儲節點分為高性能與高容量兩種類型:前者使用OceanStor Pacific 9950設備,配備7.68T NVMe SSD主存盤;后者采用OceanStor Pacific 9550設備,主存盤為16T SATA HDD。
網絡設備方面,參數面交換機選用CE9855-32DQ型號,具備32個400GE端口和2個10GE端口,交換容量達25.6Tbps。樣本面交換機采用CE8850-64CQ-EI型號,配置64個100GE端口,交換容量在12.8Tbps至204.8Tbps之間,包轉發率4482Mpps。這種精細化的網絡配置,確保了不同業務場景下的數據傳輸效率。
“致遠一號”的建成標志著上海交通大學在高性能計算領域邁入新階段。該校高性能計算中心自2012年成立以來,已形成完整的“交我算”品牌體系。2013年建成首個π1.0集群,2021年推出的“思源一號”平臺總算力達6 PFLOPS,采用聯想溫水冷技術將PUE控制在1.10。新一代平臺在算力規模、能效比和功能完整性等方面實現全面升級,為智慧校園建設提供了重要支撐。





