大模型產業正悄然經歷一場深刻變革,其重心正從算力競賽轉向存力優化。過去兩年,行業焦點集中在堆砌GPU與擴大模型參數規模,英偉達一度成為產業討論的核心。然而,隨著AI應用向規模化推理、企業級落地及多模態方向演進,存儲系統的重要性日益凸顯,成為制約技術落地的關鍵因素。
民生證券最新研報顯示,受AI需求驅動,2025年第四季度存儲價格預計持續上漲。這一趨勢源于AI應用對存儲性能的嚴苛要求,以及服務器端對高階DRAM和HBM的需求激增,導致消費級DRAM產能被擠壓。在近日舉辦的“先進存力AI推理工作研討會”上,專家達成共識:推理階段的性能瓶頸、成本壓力及用戶體驗優化,正從算力側向存儲側轉移,存力已成為推動AI落地的核心驅動力之一。
推理效率正重塑產業競爭格局。過去兩年,行業以“參數規模”為競賽指標,而2025年起,競爭焦點轉向“推理效率”。Token調用量的爆發式增長使推理成本攀升,企業開始意識到,模型訓練可集中于少數超級節點,但推理需覆蓋千行百業,直接決定用戶體驗、服務成本及業務可持續性。這標志著“Token經濟”時代的到來。
推理負載的變革集中體現在三大領域:長上下文任務使KVCache從臨時存儲變為性能核心,其容量隨輸入長度指數級增長;多模態數據(圖像、音頻、視頻)的涌入,使傳統I/O模式難以滿足實時推理需求;訓推一體化趨勢下,模型迭代需推理系統在高負載下保持低延遲與穩定性。這些變化導致GPU常因“等數據”而閑置,算力利用率下降,直接推高推理成本。數據顯示,推理側算力利用率每提升20%,整體成本可下降15%—18%,遠超單純增加GPU投入的效益。
存力瓶頸的凸顯,使“喂飽GPU”的能力成為稀缺資源。傳統存儲僅承擔數據存放功能,而在大模型推理場景中,其角色已升級為“計算助推器”:如何加速數據傳輸、避免KVCache阻塞、實現多模態數據高效編織、在訓推混合負載下保持穩定,均成為決定推理吞吐與延遲的關鍵。行業普遍采用分層緩存與動態調度技術,通過本地極速層、共享擴展層與冷備層的異構介質,按數據訪問頻率自動分配存儲位置,平衡容量、響應速度與成本。
北京硅基流動科技有限公司從框架層切入推理效率優化。其構建的AI infra工具鏈適配100余款開源大模型,并通過公有云平臺提供服務。解決方案中,UCM技術卸載KVCache以釋放顯存,智能網關優化調度與彈性擴縮容應對長上下文挑戰,基于存儲的KVCache方案使系統吞吐大幅提升。公司解決方案總監唐安波強調,框架層優化與存儲技術結合,是提升算力利用率的關鍵路徑。
產業共識正圍繞存力重構形成四大方向:其一,GPU資源將不再稀缺,“喂飽GPU”的能力成為競爭焦點。存力池化、CXL布局、多級緩存及KVCache外存化將成為標配;其二,多模態數據爆炸推動存儲從“存放”轉向“管理”,數據分類、治理與調度能力將定義推理體驗;其三,訓推一體化要求存儲系統具備實時性,IO延遲波動將直接影響業務表現;其四,CXL架構將打破內存與存儲的邊界,構建算力存力一體化新范式。AI競爭正從模型層面深入至基礎設施重構,存力優化已成為決定技術商業化成敗的核心戰場。


















