在華為全聯接大會2025期間,科大訊飛與華為聯合宣布推出LogAnalyzer運維大模型應用成果,標志著國內智能運維(AIOps)領域實現從“被動響應”到“主動運維”的關鍵跨越。該成果已在超大規模集群運維場景中驗證顯著經濟效益,科大訊飛AI工程院副院長吳婷與華為計算CCAE領域總裁魯馳共同出席發布儀式。
當前智算集群運維面臨多重挑戰:大模型訓練進入強化學習階段后,訓推迭代引發的故障模式動態變化,疊加新硬件與業務應用帶來的未知故障,導致傳統3個月周期的故障庫更新機制難以應對現網問題。未覆蓋故障需依賴跨領域專家手工分析,耗時從數天至數周不等,直接影響集群可用性。
針對上述痛點,雙方自2024年5月起開展深度合作,將華為CCAE集群運維軟件深度融入日常流程,并首次引入基于日志大模型的AI輔助分析引擎LogAnalyzer。該系統通過智能體架構實現疑難故障的快速定位,有效破解傳統運維效率瓶頸。科大訊飛AI工程院副院長吳婷在發布現場演示了系統運行邏輯。
技術突破體現在三個維度:數據層面整合昇騰集群底層設備日志、CANN基礎軟件日志及十年故障診斷經驗;分析層面通過異常日志感知提取關鍵信息,結合NPU領域知識生成進程級故障時間線;算法層面構建故障傳播鏈模型,實現作業級異常事件的全鏈路追蹤。這種多維技術融合使系統具備行業領先的智能診斷能力。
實際應用數據驗證了技術價值:在科大訊飛超大規模集群中,LogAnalyzer上線4個月累計定位83個疑難故障,平均診斷時長壓縮至10分鐘,診斷準確率達88%。該成果不僅突破傳統運維效率極限,更為行業樹立了智能化運維的新標桿。雙方表示將持續深化合作,從日志分析向多AI Agent系統演進,構建全球領先的智算集群運維解決方案。