在大數據領域,一個生動的比喻曾引領無數企業踏上探索之旅。2006年,英國數學家克萊夫·洪比將數據比作“新石油”,這一說法迅速成為大數據企業自我正當化的金句。然而,洪比未曾言明的是,與石油的消耗性不同,數據在使用中卻能不斷增殖。數據經過AI的“點燃”,能裂變產生更多新信息,這一特點在過去三年里尤為顯著,尤其在GenAI技術的催化下。
GenAI加速了“數據-模型-場景”價值閉環的運轉,使數據從輔助決策的邊緣角色躍升為企業決策的核心資產。這一變革雖微小,卻可能重構整個大數據產業的格局。資本迅速捕捉到了這一趨勢,2024年末,數據智能公司Databricks獲得了100億美元融資,將“Data+AI”理念推向市場前沿。
這股熱潮也席卷了中國市場。上海數據交易所作為官方代表之一,半年內實現了30億元的數據交易額,并聯合產業伙伴成立了區塊鏈跨鏈實驗室,計劃三年內建立1000座“數紐中心”。這標志著數據流通首次被真正視為基礎設施,與電網、高鐵并駕齊驅。
在此背景下,各大廠商紛紛將“Data+AI”納入未來戰略規劃。云廠商、運營商、系統集成商乃至老牌ERP巨頭,只要有大數據業務,都不約而同地將這一理念置于戰略顯眼位置。其中,阿里云在7月23日的飛天發布時刻上,宣布了大數據平臺ODPS的“Data+AI”戰略升級,針對GenAI時代企業的新需求,升級了ODPS產品家族,涵蓋ODPS-MaxCompute、ODPS-Hologres、ODPS-DataWorks等核心產品。
阿里云的這一升級不僅為“Data+AI”熱潮添柴加薪,更釋放出一個深層信號:在AI時代,大數據平臺正從數據處理工具集轉變為底層數據基礎設施。ODPS已率先完成這一轉型。
“Data+AI”之所以成為大勢所趨,源于企業面臨的數據困境日益復雜。數字化轉型遺留的“數據孤島”問題尚未解決,GenAI又帶來了多模態數據處理、實時性、算力及治理能力的新挑戰。這些挑戰要求業界呼喚一種全局思維、全能型的數據基礎設施。
回顧歷史,阿里巴巴在電商業務快速發展時也曾遭遇“數據孤島”困擾。因此,自2009年啟動“飛天”項目以來,阿里便同步布局大數據業務。阿里云針對不同數據生命周期環節,提供了一系列專業化工具和平臺。例如,為解決海量數據的離線存儲和計算問題,阿里云自研了ODPS平臺;為滿足企業對數據分析的實時性要求,推出了實時數倉Hologres。
然而,GenAI的到來徹底改變了游戲規則。它要求數據平臺不僅能存儲和處理異構數據,還要能進行高效的跨模態對齊、融合與處理。同時,數據處理與AI模型訓練需無縫銜接,全鏈路治理與安全也成為新的挑戰。這些環環相扣的挑戰構成了一個復雜的系統性難題,要求數據平臺像電網、高鐵一樣,成為穩定、可靠且能無縫集成各種功能的底層支撐。
阿里云ODPS的此次升級,正是從底層架構上重新定義了“數據”與“AI”的關系。以往,數據平臺和AI平臺往往是兩個獨立體系,通過ETL或API銜接。但在GenAI時代,這種模式顯得笨拙低效。阿里云通過MaxCompute升級,將AI能力嵌入數據平臺,實現了數據存儲、計算、治理與AI環節的深度融合。
ODPS以對象存儲OSS為統一數據湖底座,結合數據湖構建(DLF)進行統一的元數據管理,解決了結構化、半結構化和非結構化數據的統一存儲和治理難題。MaxCompute和Hologres構建了離線實時一體化能力,讓數據在湖與倉之間自由流動,同時平衡了數據計算的時效性與成本。
MaxCompute推出的新一代分布式計算框架Maxframe,與社區Pandas接口兼容,可直接在ODPS的海量數據上進行分布式計算。這意味著從數據預處理到AI模型訓練,整個流程都可在統一框架內完成。人工智能平臺PAI也可直接在MaxCompute的數據上進行模型訓練和部署,實現“存算訓”一體化。
DataWorks作為ODPS技術體系的“指揮中心”,提供了千萬級任務調度能力和主動式數據資產治理服務,保障了Data+AI一體化開發的高效穩定運行。它不僅支持多種計算引擎的混編任務流,還集成了智能Copilot助手,通過自然語言生成SQL,提升數據開發與分析效率。
阿里云通過這一系列核心能力的升級,構建了一個從數據到智能的閉環。數據在統一的湖倉底座上被高效治理和處理,無縫流轉至AI平臺進行模型訓練與推理,最終通過智能應用對外提供服務。這一閉環的形成,標志著ODPS已從“大數據工具組合”轉型為“AI時代的數據基礎設施”。
然而,“Data+AI”的普及仍面臨挑戰。企業在擁抱Data+AI時,最大的障礙往往不是技術本身,而是組織文化和人才儲備。要成功轉型,企業必須培育“數據驅動決策”的文化,提升員工的數據素養。同時,AI時代的人才缺口也日益凸顯,企業需要既懂技術又懂業務的復合型人才。
盡管“Data+AI”的技術邊界尚不明朗,但從企業核心需求及阿里云ODPS的升級中,AI時代數據基礎設施的面貌已逐漸清晰。關鍵特征包括“統一”、“智能”和“開放”。在這些特征下,Data+AI的競爭焦點正從模型強大轉向誰能構建出更好用的數據基礎設施,幫助企業釋放數據價值。
在這場平臺之戰中,云廠商憑借從IaaS到PaaS再到SaaS的完整技術棧占據先發優勢。未來,云將成為企業部署AI必備的業務支撐,一體化平臺構建的“客戶粘性”將成為云廠商最深的護城河。然而,Data+AI并非云廠商的獨角戲,專注于數據領域的“專業型選手”同樣值得關注。構建一個開放、共贏的生態系統,成為所有玩家的必然選擇。