在人工智能領(lǐng)域,一場關(guān)于推理架構(gòu)的變革正悄然興起。一種名為“解耦推理”的新理念,從實驗室概念迅速成長為行業(yè)新標準,被眾多主流大模型推理框架采納,推動AI邁向模塊化智能的新階段。這一變革的背后,是加州大學圣地亞哥分校“Hao AI Lab”提出的DistServe系統(tǒng),其通過將大模型推理過程拆分為“預填充”和“解碼”兩個獨立階段,為行業(yè)帶來了全新的思路。
在DistServe出現(xiàn)之前,大多數(shù)推理框架采用“同址部署”方式,即在同一塊GPU上同時執(zhí)行“預填充”和“解碼”。這種“連續(xù)批處理”技術(shù)雖曾成為業(yè)界標準,卻存在兩個根本性限制。一方面,“預填充”和“解碼”共享GPU,延遲會相互干擾,即便采取緩解措施,大型預填充請求仍可能導致輸出延遲大幅增加,尤其在負載突發(fā)時更為明顯。另一方面,二者耦合伸縮,資源分配器需同時滿足兩種最壞情況的延遲需求,導致計算資源利用率低下,整體效率不佳。隨著部署規(guī)模擴大和延遲要求提高,這些問題帶來的成本劇增,促使DistServe應運而生。
DistServe通過將“預填充”與“解碼”拆分為獨立計算池,徹底打破二者干擾,實現(xiàn)獨立伸縮,使其能各自滿足關(guān)鍵延遲指標要求,同時保持高整體效率。然而,這一顛覆性想法最初并未獲得廣泛采用。2024年大部分時間里,開源社區(qū)因?qū)υ型评硐到y(tǒng)進行深度架構(gòu)重構(gòu)需大量工程投入,對其持保留態(tài)度。但到了2025年,局面逆轉(zhuǎn),幾乎所有主流大模型推理棧都將“解耦”視為默認方案。
這一轉(zhuǎn)變主要源于多方面因素。首先,企業(yè)將大模型作為核心業(yè)務組件,“延遲控制”成為關(guān)鍵,DistServe讓“預填充”和“解碼”延遲易于觀測和控制,且在真實生產(chǎn)環(huán)境中可持續(xù)優(yōu)化。其次,隨著模型體量擴大和訪問流量激增,推理系統(tǒng)需擴展到數(shù)百乃至上千張GPU,解耦架構(gòu)優(yōu)勢凸顯,可為不同階段獨立分配資源,靈活配合多種并行策略,實現(xiàn)極高資源利用率。“解耦”增強了系統(tǒng)架構(gòu)的可組合性。
如今,“解耦推理”已成為大模型推理的主要設(shè)計原則之一,在多個層面得到廣泛應用。在編排層,NVIDIA Dynamo是專為“預填充-解碼解耦”設(shè)計的先進開源數(shù)據(jù)中心級分布式推理框架,llm-d、Ray Serve等也基于解耦推理架構(gòu)。在存儲層,芝加哥大學團隊開發(fā)的LMCache通過加速“預填充”實例到“解碼”實例的KV緩存移動優(yōu)化解耦過程,Kimi AI團隊開發(fā)的MoonCake以“KVCache中心化”為核心,構(gòu)建面向解耦的LLM推理平臺,二者已成為大規(guī)模LLM推理系統(tǒng)的標準存儲后端。在核心引擎層,幾乎所有開源LLM推理引擎,如SGLang與vLLM,都原生支持“解耦推理”。
隨著“預填充-解碼解耦”理念逐漸成熟,學術(shù)界和工業(yè)界正探索新方向,推動解耦架構(gòu)邁向“通用分解式推理”階段。在計算層面,研究者開始在模型層級上細化解耦粒度。2025年,MIT CSAIL與DeepSeek Research提出“Attention–FFN Disaggregation”框架,將Transformer的注意力模塊與前饋層分別放置于不同計算節(jié)點,使不同節(jié)點利用異構(gòu)硬件優(yōu)勢,未來推理系統(tǒng)可能每個節(jié)點運行模型的一個功能子模塊。跨層級的流水線分解也成為解耦架構(gòu)的自然延伸,多個研究團隊提出框架,如Stanford DAWN的“DisPipe”系統(tǒng)、meta AI的“HydraPipe”、Alibaba DAI-Lab的“PipeShard”,這些系統(tǒng)讓推理過程在不同節(jié)點間以“階段流”方式流動,實現(xiàn)全局流水線化推理,更適合未來多芯片異構(gòu)系統(tǒng)。
在跨模態(tài)與多模型方面,隨著多模態(tài)大模型出現(xiàn),推理系統(tǒng)面臨更復雜資源編排問題,未來趨勢是將多模態(tài)推理解耦為多個模態(tài)子推理流,再在編排層通過調(diào)度器異步融合。同時,在推理系統(tǒng)中同時運行多個LLM或?qū)S米幽P妥兊贸R姡@些架構(gòu)天然適合解耦化設(shè)計。
內(nèi)存與緩存體系的解耦也是未來研究方向。當前解耦體系依賴“集中式KV緩存池”或“共享SSD集群”,未來要讓緩存體系實現(xiàn)多層解耦與自治調(diào)度。MIT與ETH Zürich的研究者提出HiKV框架,將KV緩存劃分為GPU本地緩存、節(jié)點共享緩存、分布式持久緩存三個層次,系統(tǒng)根據(jù)上下文熱度自動遷移KV片段,使解耦推理的內(nèi)存管理更具彈性。一些硬件廠商已探索原生支持解耦架構(gòu)的芯片,未來“解耦推理”將演化為軟硬件一體化體系。
從深度學習系統(tǒng)“從分散到集中”的趨勢,到如今“從集中到解耦”的反轉(zhuǎn),并非倒退,而是成熟的標志。AI系統(tǒng)正走向模塊化智能,不同功能模塊可獨立演化、擴展和優(yōu)化,“解耦推理”正是這一趨勢的起點,未來或許將看到“解耦學習”“解耦推理”“解耦認知”三者融合的智能架構(gòu)體系。









