在近期的一次技術分享會上,亞馬遜云科技的行業專家劉勇深入探討了企業數據架構的現代化轉型路徑,特別是從傳統單體數據服務向分布式數據網格(Data Mesh)的演進過程。他詳細解析了數據網格的四大核心原則,并展示了如何在亞馬遜云平臺上實踐這些原則。
劉勇指出,數據治理是企業管理數據資產、挖掘數據價值的關鍵。它涵蓋了數據的計劃、監控和執行,確保數據被科學、規范地管理和使用。在亞馬遜云上,數據治理不僅僅是技術問題,還需要結合流程和人員管理。雖然亞馬遜云沒有專門的“數據治理”服務,但提供了豐富的工具和服務來滿足數據治理的需求,如Glue Data Catalog用于數據編目,Amazon DataZone用于數據協作等。
Amazon DataZone作為亞馬遜云上的一項關鍵數據治理服務,通過分布式數據協作方式,打破了組織邊界,釋放了數據價值。它提供了數據訪問和治理、連接數據相關人員、自動化發現和元數據管理等能力,是構建數據網格的重要基石。
回顧數據平臺的發展歷程,第一代數據平臺主要依賴數據庫和數據倉庫,但存在成本高、難以應對大數據、數據孤島等問題。第二代數據平臺利用Hadoop和Spark等技術構建了中心化的數據湖,但實踐中暴露出組織內部摩擦、數據所有權不明確等問題。第三代數據平臺雖然增加了實時流處理能力和云原生基礎設施,但仍未徹底解決這些問題。而數據網格作為一種現代分布式數據架構,通過去中心化的數據領域所有權、產品化思維管理數據、自助式協作平臺和聯邦治理等原則,為數據管理提供了新的解決方案。
在數據網格架構中,通用數據平臺僅提供基礎功能,如存儲、管道和目錄訪問等,不涉及任何業務操作。每個領域由跨職能團隊負責,根據自身業務需求選擇合適的技術棧構建數據產品。不同領域之間可以鏈接、相互使用數據產品,在統一的治理和開放標準下實現數據協作。這種架構使得數據團隊能夠掌控數據的整個生命周期,對數據質量進行控制,制定本地治理標準。
在亞馬遜云上實踐數據網格,需要利用多種云服務,如S3、Glue、Lake Formation、DataZone等。數據生產者、中心治理團隊和數據消費者分布在不同的云賬號中,數據生產者在自己的賬號中構建數據資產,并將元數據共享到中央治理賬號。數據消費者在中央賬號中查詢、訂閱并訪問所需數據,而數據本身仍存儲在生產者端,消費者只是讀取而不復制。
劉勇還探討了數據網格與生成式人工智能(Generative AI)的融合前景。他認為,兩者融合將提升數據發現、處理和分析的智能化水平,如通過自然語言查詢、AI推薦和自動化報表等功能,更好地挖掘和利用數據價值。在技術架構層面,生成式AI應用層將構建于數據產品層和數據治理層之上,利用數據產品進行模型訓練、構建知識庫,并通過API服務的形式對外提供數據資源。
亞馬遜云科技在推動數據架構現代化轉型方面,提供了完整的解決方案。從單體數據服務向分布式數據網格邁進,再融合生成式AI,將助力企業全面擁抱數據時代,實現數據驅動的業務創新。亞馬遜云科技通過領先的技術實力和豐富的經驗,幫助企業把握全球化機遇,在AI時代取得突破。