在近期舉辦的2025年亞馬遜云科技中國峰會上,觀測云技術領域的領軍人物黃小龍,就《下一代智能可觀測性平臺的實踐探索》這一主題,向與會者分享了其深刻見解。會后,我們有幸與黃小龍進行了深入交流,探討了該平臺背后的設計理念、技術發展歷程以及未來的產品規劃。
當談及當前行業面臨的挑戰時,黃小龍指出,許多企業在構建監控體系時,往往采用“煙囪式”方法,即每個系統、每個團隊都使用不同的工具。這種方法雖然在短期內看似靈活高效,但長期來看,卻導致了高昂的協同成本和嚴重的數據孤島問題。例如,一個告警事件可能需要在多個平臺之間來回切換,而日志、指標、鏈路和事件之間又無法相互關聯,這無疑大大降低了問題定位的效率。
為了解決這一問題,觀測云提出了“智能一體化可觀測性平臺”的概念,旨在通過統一的數據基礎、查詢語言和分析入口,來替代繁瑣的工具堆疊。這樣一來,工程師們便能更加專注于問題本身,而無需在工具之間耗費大量精力。
在談到平臺底層技術的演進時,黃小龍詳細介紹了GuanceDB 3.0。這款數據庫系統基于S3架構,采用存儲與計算分離的設計,不僅性能卓越,而且非常適合公有云環境。觀測云還推出了“流式聚合引擎”,該引擎能夠根據用戶的歷史查詢行為,在數據寫入時自動進行預聚合,從而極大地提高了儀表板和查詢的響應速度。
關于AI能力的應用,黃小龍表示,觀測云已經將AI深入融合到產品的每個細節中。他們構建了智能體Obsy AI,該智能體具備AI智能助手、AI智能分析和AI告警分析三大功能。這些功能不僅能夠幫助用戶更輕松地理解數據,還能進行趨勢識別、異常推理以及告警上下文關聯,從而為用戶提供更為全面的問題解決方案。
除了常規的監控能力外,觀測云還在平臺上引入了安全事件分析能力,并打造了專用引擎Arbiter。這款引擎具有可編程性、可引用全量觀測數據以及與常規監控解耦等特點,使得平臺不僅能夠監控系統的穩定性,還能快速發現潛在的安全風險,實現了監控與安全的無縫融合。
在談到觀測云在亞馬遜云科技生態中的技術定位時,黃小龍指出,觀測云自創立之初便基于亞馬遜云科技生態構建產品架構。其存儲層完全托管在Amazon S3上,彈性計算資源調度則基于EKS,智能體由Amazon Bedrock提供大模型能力,全球客戶可通過亞馬遜云科技Marketplace快速使用觀測云。這意味著客戶能夠輕松地在全球范圍內使用觀測云的平臺,并享受云原生帶來的高可用、低運維和強彈性等優勢。
智能一體化、全棧可觀測和安全分析能力正在觀測云平臺上逐一實現。正如黃小龍所言,“讓數據‘看見’,也讓決策變得可見”。可觀測性不僅成為了運維人員的重要工具,更是企業實現智能化的堅實基礎。