在AICon全球人工智能開發與應用大會前夕,一場聚焦大模型Infra工程師實戰日常的深度對話在線上熱烈展開。此次對話由《極客有約》X AICon直播欄目精心策劃,邀請了華為昇騰技術專家ZOMI醬、螞蟻集團高級專家馬介悅以及SGLang核心開發者尹良升,共同探討了Infra工程師在日常工作中遇到的挑戰與解決方案。
對話中,專家們首先分享了在大模型工程中遇到的高頻問題。馬介悅指出,線上訓練過程中常遇到穩定性問題,如訓練任務中斷,特別是在大規模集群上,GPU故障幾乎難以避免。他還提到,loss異常飆升也是一個復雜且難以排查的問題,可能源于算法缺陷、并行框架問題或數據錯誤等。尹良升則從開源項目的角度出發,表示用戶在部署時經常遇到運行時錯誤和性能問題,這些問題往往需要深入代碼層面進行點對點的優化或配置修正。
ZOMI則更關注訓練環節,他提到在萬卡甚至十萬卡級別的集群中,硬件故障不可避免,特別是在持續訓練的大型模型任務中。他還指出,損失函數異常飆升的問題也需要Infra團隊與算法團隊進行更緊密的合作來解決。
當被問及大模型工程流程中哪一段最容易出問題時,尹良升以SGLang社區的實踐為例,提到了并行策略不兼容的問題。他表示,新功能在快速交付時可能會暫時忽略與現有功能的兼容性,導致后續需要經歷代碼重構與解耦的過程。ZOMI也提到,在版本迭代過程中,新特性與舊有算法或并行策略不兼容的情況時有發生,需要經歷多個版本的持續迭代與磨合來解決。
在談到工程化實踐時,馬介悅強調了性能剖析和監控系統的重要性。他表示,高效的工程化實踐離不開強大的性能剖析和監控系統支持,僅靠人工排查效率低下。他還分享了DLRover在性能剖析方面的實踐,包括記錄底層CUDA算子執行時間、Python進程調用棧等信息,生成時間線和火焰圖,為SRE和研發人員提供關鍵的排障依據。
專家們還就大模型低成本的優化價值進行了討論。尹良升認為,從推理部署角度看,將大模型的推理成本壓至最低至關重要。他提到了通過特定的部署方式、緩存策略以及提高GPU極限利用率等方法來降低大模型成本。馬介悅則從硬件角度出發,提到了使用NVLink/NVSwitch機制提升單機節點內的GPU通信效率,以及通過大型機柜方案消除性能斷層,提升整體并行性能。
在談到開源項目背后的挑戰時,專家們表示,除了寫代碼之外,社區運營、用戶反饋以及版本節奏管理都是難題。馬介悅分享了DLRover在開源社區運營方面的經驗,包括平衡公司工作與社區投入、推廣及交流活動等。尹良升則表示,開源項目的核心在于其開放性,如何在項目維護者與社區用戶之間構建良性循環是開源項目可持續發展的關鍵。
最后,專家們還就GPU虛擬化、異構部署等技術趨勢進行了討論。ZOMI提到,隨著技術演進,異構部署的可行性顯著提升,充分利用異構硬件特性、實現跨類型資源的智能調度與混部已成為AI基礎設施演進的重要方向。尹良升則分享了SGLang在異構部署方面的實踐和經驗。
此次對話不僅展現了大模型Infra工程師在日常工作中的真實需求和挑戰,也分享了專家們在解決這些問題方面的寶貴經驗和見解。這些經驗和見解對于推動AI技術的發展和應用具有重要意義。