在AI硬件性能優(yōu)化的探索中,一項(xiàng)名為“分布式推理”的創(chuàng)新技術(shù)引發(fā)行業(yè)關(guān)注。EXO Labs近日宣布,其基于開源框架EXO的混合計(jì)算方案成功突破傳統(tǒng)硬件限制,通過將英偉達(dá)DGX Spark與蘋果Mac Studio組合,在AI大語言模型推理測試中實(shí)現(xiàn)2.8倍性能提升,為解決“選擇高性能AI主機(jī)”的難題提供了新思路。
該方案的核心在于EXO框架的異構(gòu)計(jì)算能力。與傳統(tǒng)依賴單一GPU或加速器的模式不同,EXO可將推理任務(wù)自動(dòng)拆分至不同硬件設(shè)備,形成類似WiFi Mesh網(wǎng)絡(luò)的“AI Mesh”架構(gòu)。實(shí)驗(yàn)中,兩臺(tái)售價(jià)3999美元的DGX Spark(側(cè)重計(jì)算性能)與一臺(tái)搭載M3 Ultra芯片、售價(jià)5599美元的Mac Studio(擅長數(shù)據(jù)帶寬)組成統(tǒng)一系統(tǒng),通過動(dòng)態(tài)分配任務(wù)實(shí)現(xiàn)性能互補(bǔ)。
具體而言,AI推理過程被劃分為兩個(gè)關(guān)鍵階段:預(yù)填充階段需處理輸入提示,主要受計(jì)算性能制約;解碼階段需逐個(gè)生成詞元,更依賴內(nèi)存帶寬。EXO的調(diào)度策略將預(yù)填充任務(wù)交由DGX Spark執(zhí)行,其計(jì)算速度較Mac Studio快3.8倍;解碼任務(wù)則由Mac Studio承擔(dān),其生成速度比DGX Spark快3.4倍。系統(tǒng)通過實(shí)時(shí)傳輸模型內(nèi)部數(shù)據(jù)(KV緩存),使兩臺(tái)設(shè)備無需等待即可并行工作。
在meta Llama-3.1 8B模型的基準(zhǔn)測試中,混合架構(gòu)的性能優(yōu)勢顯著:相較于單獨(dú)使用Mac Studio,推理速度提升2.8倍。這一成果驗(yàn)證了“計(jì)算密集型任務(wù)與帶寬敏感型任務(wù)分離執(zhí)行”的可行性,為優(yōu)化硬件資源利用提供了新范式。
值得注意的是,類似設(shè)計(jì)理念已出現(xiàn)在行業(yè)巨頭的技術(shù)路線中。英偉達(dá)新一代Rubin CPX平臺(tái)采用類似架構(gòu):計(jì)算密集的上下文構(gòu)建由Rubin CPX處理器完成,而配備高帶寬HBM3e內(nèi)存的標(biāo)準(zhǔn)Rubin芯片負(fù)責(zé)解碼。這種跨廠商的技術(shù)趨同,凸顯了分布式推理在AI算力擴(kuò)展中的潛力。
盡管EXO 1.0目前仍處于早期實(shí)驗(yàn)階段(開源版本0.0.15-alpha發(fā)布于2025年3月),但其演示表明,通過智能調(diào)度異構(gòu)硬件資源,無需依賴大型數(shù)據(jù)中心即可顯著提升AI性能。未來版本計(jì)劃引入自動(dòng)調(diào)度、KV流式傳輸?shù)葍?yōu)化功能,進(jìn)一步降低混合計(jì)算的使用門檻。不過,該技術(shù)目前仍屬研究級(jí)工具,尚未面向普通消費(fèi)者開放。











