高通公司近日正式發布面向數據中心領域的下一代AI推理加速方案,推出基于Qualcomm AI200與AI250芯片的加速卡及機架系統。該系列解決方案依托高通在神經網絡處理單元(NPU)領域的技術積累,通過機架級架構設計實現性能與能效的雙重突破,為生成式AI在各行業的規模化部署提供關鍵基礎設施支持。
Qualcomm AI200加速卡專為機架級AI推理場景設計,每卡配備768GB LPDDR內存,在提升內存容量的同時降低整體擁有成本。該方案針對大語言模型(LLM)和多模態模型(LMM)推理需求進行優化,通過內存擴展技術實現硬件資源的靈活調配,滿足從邊緣計算到云端服務的多樣化AI工作負載需求。
作為技術升級的核心,Qualcomm AI250首次引入近存計算架構,通過將計算單元與內存單元深度集成,實現超過10倍的有效內存帶寬提升。這種創新設計不僅顯著降低功耗,還支持解耦式AI推理模式,使硬件資源可根據任務需求動態分配,在保證性能的同時優化客戶成本結構。實驗數據顯示,該架構可使特定AI推理任務的能效比提升達40%。
在系統設計層面,兩款機架解決方案均采用直接液冷散熱技術,配合PCIe縱向擴展與以太網橫向擴展能力,構建起高密度計算集群。安全防護方面,機架系統集成機密計算模塊,通過硬件級安全加密確保AI模型和數據在推理過程中的全流程保護。整機架設計功耗控制在160千瓦,兼顧高性能與能源效率。
高通技術規劃與數據中心業務負責人馬德嘉強調,新方案通過軟件棧與開放生態的協同創新,重新定義了機架級AI推理的標準。開發者可借助高通Efficient Transformers庫和AI Inference Suite工具鏈,實現與主流AI框架的無縫對接,并支持Hugging Face模型庫的一鍵部署。這種全鏈路優化覆蓋從模型訓練到推理服務的完整生命周期,顯著降低AI應用落地門檻。
配套發布的超大規模級AI軟件棧提供從應用層到系統層的全棧支持,兼容TensorFlow、PyTorch等主流機器學習框架,并集成生成式AI框架優化模塊。開發者通過標準化API接口和自動化工具鏈,可快速完成模型適配與性能調優。該軟件棧還提供預訓練模型庫、開發工具包及AI運營服務,形成完整的端到端解決方案。
根據規劃,Qualcomm AI200將于2026年率先投入商用,AI250則計劃在2027年實現規模部署。高通承諾將保持年度技術迭代節奏,持續優化AI推理性能、能效比及總體擁有成本三大核心指標,通過芯片架構創新與軟件生態建設鞏固其在數據中心市場的競爭優勢。











