近日,百度智能云混合云攜手昆侖芯、HAMi(由密瓜智能主導(dǎo)的CNCF開源項(xiàng)目)推出了一項(xiàng)創(chuàng)新算力調(diào)度方案——基于昆侖芯P800的XPU/vXPU雙模式資源調(diào)度體系。該方案已在某金融企業(yè)的昆侖芯集群中成功落地,為智能客服、營銷輔助等十余類AI業(yè)務(wù)提供穩(wěn)定且靈活的算力支持。通過整合整卡XPU與虛擬化vXPU資源,企業(yè)可在同一集群內(nèi)實(shí)現(xiàn)算力的按需調(diào)用,既滿足業(yè)務(wù)高效運(yùn)行需求,又提升資源利用率。
在算力調(diào)度領(lǐng)域,百度智能云與HAMi合作構(gòu)建的“XPU整卡+vXPU虛擬化”雙模式體系,通過差異化策略適配不同業(yè)務(wù)場景。XPU整卡模式聚焦大規(guī)模訓(xùn)練任務(wù),采用拓?fù)鋵?yōu)調(diào)度與集群健康度評(píng)估技術(shù),確保多卡協(xié)同下的通信性能與穩(wěn)定性。系統(tǒng)自動(dòng)識(shí)別服務(wù)器物理分區(qū),優(yōu)先在單側(cè)翼內(nèi)分配資源,減少跨分區(qū)通信開銷;同時(shí),通過評(píng)估節(jié)點(diǎn)拓?fù)湟?guī)整度,選擇最優(yōu)調(diào)度節(jié)點(diǎn),避免資源碎片化。這一設(shè)計(jì)使運(yùn)維團(tuán)隊(duì)無需手動(dòng)拼卡,即可實(shí)現(xiàn)大模型訓(xùn)練的穩(wěn)定運(yùn)行。
針對(duì)推理、開發(fā)測(cè)試等輕量化任務(wù),vXPU虛擬化模式提供多粒度算力切分支持。該模式允許單張昆侖芯P800顯卡被切分為1/4卡(24GB顯存)或1/2卡(48GB顯存)規(guī)格,滿足細(xì)粒度算力需求。用戶僅需聲明所需顯存,系統(tǒng)會(huì)自動(dòng)匹配最優(yōu)切分規(guī)格,例如申請(qǐng)20GB顯存時(shí),系統(tǒng)直接分配24GB規(guī)格,簡化操作流程。通過“同規(guī)格共享”機(jī)制,同一物理卡僅允許相同規(guī)格的虛擬實(shí)例共享,進(jìn)一步降低資源隔離與管理復(fù)雜度。
為應(yīng)對(duì)灰度測(cè)試、硬件故障復(fù)現(xiàn)等特殊場景,方案設(shè)計(jì)了UUID精準(zhǔn)控卡功能。運(yùn)維人員可通過指定物理卡UUID,直接選定或排除特定卡片。例如,在新模型灰度發(fā)布時(shí),僅需調(diào)用部分卡片完成驗(yàn)證;硬件故障排查時(shí),可精準(zhǔn)定位問題卡片進(jìn)行調(diào)試,無需整機(jī)下線。這一設(shè)計(jì)結(jié)合自動(dòng)化調(diào)度與人工調(diào)節(jié)通道,既保障日常調(diào)度效率,又賦予運(yùn)維團(tuán)隊(duì)靈活管理的能力。
該雙模式調(diào)度方案在金融行業(yè)的實(shí)踐,驗(yàn)證了“場景驅(qū)動(dòng)調(diào)度策略”的技術(shù)價(jià)值。通過整合開源生態(tài)與企業(yè)服務(wù)能力,方案不僅提升了國產(chǎn)AI硬件的利用率,也為復(fù)雜業(yè)務(wù)場景下的算力管理提供了可復(fù)制的解決方案。











