滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

中科院NeurIPS新成果SpaceServe：以“空分復用”破局MLLM推理行頭阻塞難題

時間：2025-10-12 22:07:34 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

中國科學院計算技術研究所的研究團隊在NeurIPS 2025會議上發布了一項突破性成果——SpaceServe架構，該架構首次將大語言模型（LLM）推理中的并行-解碼（P/D）分離技術擴展至多模態場景，通過創新的“空分復用”機制徹底解決了多模態大語言模型（MLLM）推理中的行頭阻塞問題。

隨著MLLM在圖像理解、視頻分析等高分辨率任務中的廣泛應用，其推理流程中的多模態編碼階段逐漸成為性能瓶頸。傳統系統如vLLM采用“時間復用”策略，即GPU需先完成視覺或音頻編碼任務后，才能切換至文本解碼任務。這種設計在高并發場景下會引發嚴重問題：一個高分辨率圖像的編碼可能耗時數百毫秒，導致所有等待生成文本的解碼請求被迫阻塞，造成解碼器“饑餓”，輸出token耗時（TPOT）隨請求量激增而急劇上升，系統吞吐量大幅下降。

研究團隊提出的SpaceServe架構通過“空分復用”技術，將傳統的時間串行執行模式轉變為空間并行執行模式。定量分析顯示，視覺編碼器具有計算密集、內存帶寬需求低的特點，而文本解碼器則內存密集、高度依賴HBM帶寬存儲KV Cache。二者資源需求互補，卻在時間復用架構下被迫串行執行，導致GPU資源浪費。SpaceServe的核心創新在于將編碼器與解碼器解耦，并利用現代GPU的細粒度流式多處理器（SM）分區能力，實現二者在同一GPU上的并發執行。

該架構包含三大關鍵技術：首先，通過EPD（Encoder-Prefill-Decode）三階段邏輯解耦與物理共置，將多模態編碼器從共享文本解碼器中完全分離，支持獨立調度；其次，采用TWSRFT（Time-Window Shortest Remaining Work First）編碼器調度策略，按剩余工作量最短優先原則批處理編碼請求，避免大圖阻塞小圖，平滑解碼器輸入流；最后，開發基于資源利用曲線的動態分配運行時（Space Inference Runtime），離線構建資源-效用曲線，在線根據請求元數據動態分配SM計算單元，最小化端到端延遲。

在Qwen2-VL系列模型（2B–72B）上的實測數據顯示，SpaceServe顯著優于傳統vLLMv1系統。當請求率增加時，vLLM的TPOT從101ms急劇惡化至365ms，而SpaceServe僅從8.85ms微增至12.62ms。根本原因在于，vLLM中編碼器獨占GPU時解碼器無法推進，而SpaceServe通過空分復用使解碼器在編碼器運行期間持續生成token，徹底解耦了執行流程。

與NVIDIA MPS（Multi-Process Service）方案的對比進一步驗證了SpaceServe的優勢。在10 RPS（每秒請求數）條件下，MPS版本的TPOT為132ms，而SpaceServe通過細粒度SM分區將延遲降至40.68ms，提速3.3倍。這是因為MPS僅在進程級隔離資源，編碼器與解碼器仍會爭搶同一SM內的寄存器、L1緩存等資源，導致緩存污染與執行效率下降。而SpaceServe通過SM級物理分區實現了真正的資源隔離，最大化各自執行效率。

這項研究無需修改現有模型結構，即可兼容Qwen2-VL、Kimi-VL等主流MLLM，且代碼已開源，有望集成至vLLM、SGLang等框架，推動多模態服務的高效落地。值得注意的是，SpaceServe主要優化穩態吞吐（TPOT），對首token延遲（TTFT）影響有限，這與設計目標一致——聚焦于解碼器的持續高吞吐，而非單次編碼加速。

項目地址：https://github.com/gofreelee/SpaceServe

10-12

亞洲首個電磁彈射微重力裝置亮相：小鼠實驗啟幕，深空探測未來可期

10-12

“恐龍院士”徐星：朝陽化石點亮童心科普與科研共筑科學夢

10-12

新益昌首款具身智能機器人HOSON-Robot亮相，全自研技術拓展智能新邊界

10-12

20年前今日費俊龍聶海勝踏雪飛天，開啟中國多人多天巡天新篇章

10-12

澳大利亞研發“類腦”流體芯片：模仿神經元可塑性或突破電子芯片局限

10-12

新益昌HOSON-Robot具身智能機器人亮相：核心部件自研，工業多場景適配未來可期

10-12

美蘇曾“覬覦”月球：從瘋狂計劃到中國人的賞月情懷與登月愿景

10-12

中國天眼FAST成果斐然：發現1152顆脈沖星，領跑射電天文研究

10-12

遼上京西山坡佛寺遺址：泥塑羅漢像見證遼金佛教藝術輝煌

10-12

中國天眼FAST：發現1152顆脈沖星，引領射電天文研究新跨越

10-12

中國天眼FAST：500米口徑“巨眼” 脈沖星發現量斷層式領先

10-12

無人機輕裝上陣，騾子翻山越嶺，西湖龍井“貼秋膘”科技與傳統齊發力

杭州孝林茶葉專業合作社的譚國華是提供無人機服務的飛手之一，他告訴記者，無人機單次最多可運輸130斤左右的菜籽餅上山，來回只需兩三分鐘，單日運輸量最高可達7.5噸，目前已服務一百多戶村民。工作人員解釋，龍井村…

10-12

國產科研管理系統怎么選？杰軟科技二十年深耕，以專業服務賦能科研數字化轉型

在眾多提供科研解決方案的企業中，杰軟科技（集團）有限公司憑借其深厚的行業積累脫穎而出。在中國工程院、中國農科院等頂尖機構的實踐中，其系統展現了驚人的適應性——無論是復雜的課題管理，還是精細的經費核算，…

10-12

宇樹科技“紅裝扭秧歌”人形機器人外觀設計專利獲批上市計劃引關注

IT之家 10 月 12 日消息，近日，杭州宇樹科技股份有限公司（以下簡稱“宇樹科技”）的人形機器人外觀設計專利獲得授權。專利文件顯示，該人形機器人身著紅棉襖，手持紅手帕，與今年央視春晚上表演“扭秧歌”的機器…

10-12

點擊查看更多 +

全站最新

煥新極氪001攜多重升級登場，限時25.98萬起享智能科技與極致性能

煥新極氪001上市即爆！性能操控智能全面升級，訂單量破紀錄

高速行車：別做“慢行者”，緊跟車流、避貨車盲區才更安全

2025年9月MPV銷量揭曉：魏牌高山登頂，新能源車型加速重塑市場格局

“十四五”成果斐然：中國汽車產業駛向綠色智能新未來

重慶新能源汽車出口“狂飆”：五年增超11倍，自主品牌占比超九成

熱門內容

本欄最新

Sora上線iOS后表現亮眼，安卓版Google Play預注冊已開啟

科大訊飛AI寫作助手2025年11月30日將停運，用戶需及時備份遷移數據

Sora上線五天下載量破百萬，美區App Store榜單力壓ChatGPT和Gemini

中科院團隊全固態電池研究獲突破：零壓運行+高倍率，商業化之路再進一步

DevDay新動向：OpenAI或以ChatGPT為入口重構軟件世界秩序

安徽合肥飛行教員王先生一家駕機返鄉，300公里1小時20分，“空中睡床”引熱議

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

中科院NeurIPS新成果SpaceServe：以“空分復用”破局MLLM推理行頭阻塞難題

日本精品一区二区三区高清久久