滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

從實驗室到行業(yè)標配：解耦推理18個月逆襲，引領(lǐng)AI邁向模塊化新時代

時間：2025-11-09 21:35:56 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

在人工智能領(lǐng)域，一場關(guān)于推理架構(gòu)的變革正悄然興起。一種名為“解耦推理”的新理念，從實驗室概念迅速成長為行業(yè)新標準，被眾多主流大模型推理框架采納，推動AI邁向模塊化智能的新階段。這一變革的背后，是加州大學圣地亞哥分校“Hao AI Lab”提出的DistServe系統(tǒng)，其通過將大模型推理過程拆分為“預填充”和“解碼”兩個獨立階段，為行業(yè)帶來了全新的思路。

在DistServe出現(xiàn)之前，大多數(shù)推理框架采用“同址部署”方式，即在同一塊GPU上同時執(zhí)行“預填充”和“解碼”。這種“連續(xù)批處理”技術(shù)雖曾成為業(yè)界標準，卻存在兩個根本性限制。一方面，“預填充”和“解碼”共享GPU，延遲會相互干擾，即便采取緩解措施，大型預填充請求仍可能導致輸出延遲大幅增加，尤其在負載突發(fā)時更為明顯。另一方面，二者耦合伸縮，資源分配器需同時滿足兩種最壞情況的延遲需求，導致計算資源利用率低下，整體效率不佳。隨著部署規(guī)模擴大和延遲要求提高，這些問題帶來的成本劇增，促使DistServe應運而生。

DistServe通過將“預填充”與“解碼”拆分為獨立計算池，徹底打破二者干擾，實現(xiàn)獨立伸縮，使其能各自滿足關(guān)鍵延遲指標要求，同時保持高整體效率。然而，這一顛覆性想法最初并未獲得廣泛采用。2024年大部分時間里，開源社區(qū)因?qū)υ型评硐到y(tǒng)進行深度架構(gòu)重構(gòu)需大量工程投入，對其持保留態(tài)度。但到了2025年，局面逆轉(zhuǎn)，幾乎所有主流大模型推理棧都將“解耦”視為默認方案。

這一轉(zhuǎn)變主要源于多方面因素。首先，企業(yè)將大模型作為核心業(yè)務組件，“延遲控制”成為關(guān)鍵，DistServe讓“預填充”和“解碼”延遲易于觀測和控制，且在真實生產(chǎn)環(huán)境中可持續(xù)優(yōu)化。其次，隨著模型體量擴大和訪問流量激增，推理系統(tǒng)需擴展到數(shù)百乃至上千張GPU，解耦架構(gòu)優(yōu)勢凸顯，可為不同階段獨立分配資源，靈活配合多種并行策略，實現(xiàn)極高資源利用率。“解耦”增強了系統(tǒng)架構(gòu)的可組合性。

如今，“解耦推理”已成為大模型推理的主要設(shè)計原則之一，在多個層面得到廣泛應用。在編排層，NVIDIA Dynamo是專為“預填充-解碼解耦”設(shè)計的先進開源數(shù)據(jù)中心級分布式推理框架，llm-d、Ray Serve等也基于解耦推理架構(gòu)。在存儲層，芝加哥大學團隊開發(fā)的LMCache通過加速“預填充”實例到“解碼”實例的KV緩存移動優(yōu)化解耦過程，Kimi AI團隊開發(fā)的MoonCake以“KVCache中心化”為核心，構(gòu)建面向解耦的LLM推理平臺，二者已成為大規(guī)模LLM推理系統(tǒng)的標準存儲后端。在核心引擎層，幾乎所有開源LLM推理引擎，如SGLang與vLLM，都原生支持“解耦推理”。

隨著“預填充-解碼解耦”理念逐漸成熟，學術(shù)界和工業(yè)界正探索新方向，推動解耦架構(gòu)邁向“通用分解式推理”階段。在計算層面，研究者開始在模型層級上細化解耦粒度。2025年，MIT CSAIL與DeepSeek Research提出“Attention–FFN Disaggregation”框架，將Transformer的注意力模塊與前饋層分別放置于不同計算節(jié)點，使不同節(jié)點利用異構(gòu)硬件優(yōu)勢，未來推理系統(tǒng)可能每個節(jié)點運行模型的一個功能子模塊。跨層級的流水線分解也成為解耦架構(gòu)的自然延伸，多個研究團隊提出框架，如Stanford DAWN的“DisPipe”系統(tǒng)、meta AI的“HydraPipe”、Alibaba DAI-Lab的“PipeShard”，這些系統(tǒng)讓推理過程在不同節(jié)點間以“階段流”方式流動，實現(xiàn)全局流水線化推理，更適合未來多芯片異構(gòu)系統(tǒng)。

在跨模態(tài)與多模型方面，隨著多模態(tài)大模型出現(xiàn)，推理系統(tǒng)面臨更復雜資源編排問題，未來趨勢是將多模態(tài)推理解耦為多個模態(tài)子推理流，再在編排層通過調(diào)度器異步融合。同時，在推理系統(tǒng)中同時運行多個LLM或?qū)Ｓ米幽Ｐ妥兊贸Ｒ姡@些架構(gòu)天然適合解耦化設(shè)計。

內(nèi)存與緩存體系的解耦也是未來研究方向。當前解耦體系依賴“集中式KV緩存池”或“共享SSD集群”，未來要讓緩存體系實現(xiàn)多層解耦與自治調(diào)度。MIT與ETH Zürich的研究者提出HiKV框架，將KV緩存劃分為GPU本地緩存、節(jié)點共享緩存、分布式持久緩存三個層次，系統(tǒng)根據(jù)上下文熱度自動遷移KV片段，使解耦推理的內(nèi)存管理更具彈性。一些硬件廠商已探索原生支持解耦架構(gòu)的芯片，未來“解耦推理”將演化為軟硬件一體化體系。

從深度學習系統(tǒng)“從分散到集中”的趨勢，到如今“從集中到解耦”的反轉(zhuǎn)，并非倒退，而是成熟的標志。AI系統(tǒng)正走向模塊化智能，不同功能模塊可獨立演化、擴展和優(yōu)化，“解耦推理”正是這一趨勢的起點，未來或許將看到“解耦學習”“解耦推理”“解耦認知”三者融合的智能架構(gòu)體系。

11-09

長虹進博會攜熊貓AI家電亮相，以科技與文化共融開啟智造出海新篇

11-09

馬斯克：星艦開啟新篇，或成大規(guī)模部署太陽能AI衛(wèi)星關(guān)鍵路徑

11-09

2025核聚變產(chǎn)業(yè)提速：多路線競發(fā)，能源革命曙光在前

被視為人類能源終極解決方案之一的核聚變，近年來在技術(shù)研發(fā)與產(chǎn)業(yè)投入上顯著提速，多條技術(shù)路徑并行發(fā)展，共同推動著“人造太陽”的夢想照進現(xiàn)實。全球多個大型項目如國際熱核聚變實驗堆（ITER）、中國的聚變工程實驗堆…

11-09

?馬斯克稱星艦問世或成大規(guī)模部署太陽能AI衛(wèi)星關(guān)鍵路徑?

IT之家 11 月 9 日消息，世界首富埃隆?馬斯克今日在 X平臺稱，“隨著星艦的問世，大規(guī)模部署太陽能人工智能衛(wèi)星的道路終于得以開辟。Starcloud 等公司計劃通過太空數(shù)據(jù)中心運行簡化版 AI 模型，…

11-09

2025烏鎮(zhèn)峰會：螞蟻集團以萬卡算力與技術(shù)創(chuàng)新，推動AGI普惠與人機協(xié)作新未來

11-09

“果鏈”企業(yè)跨界“機器人鏈”：從iPhone制造到機器人與機器狗新征程

日前，藍思科技董事長周群飛在近日一場論壇上表示，藍思科技在場景化落地方面，已批量交付智元靈犀機器人、支付寶智能終端；在具身智能領(lǐng)域，已進入北美及國內(nèi)頭部機器人供應鏈，關(guān)節(jié)模組、靈巧手、結(jié)構(gòu)件實現(xiàn)批量交付，2…

11-09

湖南省長浙江“取經(jīng)”：學頭部經(jīng)驗，聚焦優(yōu)勢賽道搶占AI新賽道

在制造業(yè)——作為制造業(yè)大省，湖南的工程機械、軌道交通裝備產(chǎn)業(yè)規(guī)模長期位居全國首位；在文化——湖湘文化底蘊深厚，為“AI+文創(chuàng)”等提供了豐富資源；在農(nóng)業(yè)——作為“魚米之鄉(xiāng)”，湖南的水稻、生豬、油料等農(nóng)產(chǎn)品產(chǎn)量穩(wěn)…

11-09

UCSD與英特爾聯(lián)手推出PettingLLMs框架，多智能體強化學習性能顯著提升

實驗效果在推箱子這種長規(guī)劃任務中，通過AT-GRPO訓練，兩個agent都得到了強化，任務性能從14%提升至96%。 PettingLLMs通過支持通用的多智能體強化學習算法，讓多智能體一起學習一起進化，實…

11-09

2025烏鎮(zhèn)峰會圓滿收官：共繪數(shù)智未來發(fā)布多項成果文件報告

11-09

AI浪潮下，設(shè)計師如何破局？成為駕馭技術(shù)與情感的“超級個體”

11-09

AI算力“升空”進行時：太空成新角力場，中國太空算力體系加速迭代

11-09

烏鎮(zhèn)峰會張朝陽談AI：輔助科學探索，人類仍需獨立思考拒絕過度依賴

11-09

2025世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會落幕，共繪數(shù)智未來，成果文件報告齊發(fā)

11-09

浙江人工智能發(fā)展勢頭強勁：產(chǎn)業(yè)營收增長算力領(lǐng)先模型躋身全球前列

11-09

點擊查看更多 +

全站最新

小米汽車端到端輔助駕駛體驗本周末開啟，全程0接管，智能駕駛進程再提速

李想遇網(wǎng)絡謠言困境終得解，行業(yè)共呼抵制黑公關(guān)守護健康發(fā)展生態(tài)

驍龍8E Gen5加持卻遇冷！小米17價格跳水，無背屏設(shè)計成銷量絆腳石？

雷軍助力小米員工車隊出征小米·中國汽車耐力錦標賽周末激戰(zhàn)在即

?2025福布斯中國內(nèi)地富豪榜揭曉：鐘睒睒五度登頂，雷軍排名超馬云

人民之夜@烏鎮(zhèn)茶話：AI浪潮下多元賦能，技術(shù)與善意共繪發(fā)展新藍圖

熱門內(nèi)容

本欄最新

19.68萬起！2026款比亞迪夏廣州上市，重塑家庭MPV價值新標桿

智己LS9全球首發(fā)預售，33.69萬起攜跨代科技沖擊30萬級大六座SUV市場

智己LS9全球首發(fā)預售33.69萬起，跨代科技賦能打造大六座SUV新標桿

奔馳純電CLA 24.9萬起售：續(xù)航能效亮眼，能否打動中國消費者？

售價不到8萬，性價比超高的吉利銀河星耀6，緣何月銷僅536輛？

購車旺季“方盒子”SUV扎堆！四款新車各具特色等你來挑

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

從實驗室到行業(yè)標配：解耦推理18個月逆襲，引領(lǐng)AI邁向模塊化新時代

日本精品一区二区三区高清久久