在大數(shù)據(jù)領(lǐng)域,一個生動的比喻曾引領(lǐng)無數(shù)企業(yè)踏上探索之旅。2006年,英國數(shù)學家克萊夫·洪比將數(shù)據(jù)比作“新石油”,這一說法迅速成為大數(shù)據(jù)企業(yè)自我正當化的金句。然而,洪比未曾言明的是,與石油的消耗性不同,數(shù)據(jù)在使用中卻能不斷增殖。數(shù)據(jù)經(jīng)過AI的“點燃”,能裂變產(chǎn)生更多新信息,這一特點在過去三年里尤為顯著,尤其在GenAI技術(shù)的催化下。
GenAI加速了“數(shù)據(jù)-模型-場景”價值閉環(huán)的運轉(zhuǎn),使數(shù)據(jù)從輔助決策的邊緣角色躍升為企業(yè)決策的核心資產(chǎn)。這一變革雖微小,卻可能重構(gòu)整個大數(shù)據(jù)產(chǎn)業(yè)的格局。資本迅速捕捉到了這一趨勢,2024年末,數(shù)據(jù)智能公司Databricks獲得了100億美元融資,將“Data+AI”理念推向市場前沿。
這股熱潮也席卷了中國市場。上海數(shù)據(jù)交易所作為官方代表之一,半年內(nèi)實現(xiàn)了30億元的數(shù)據(jù)交易額,并聯(lián)合產(chǎn)業(yè)伙伴成立了區(qū)塊鏈跨鏈實驗室,計劃三年內(nèi)建立1000座“數(shù)紐中心”。這標志著數(shù)據(jù)流通首次被真正視為基礎(chǔ)設(shè)施,與電網(wǎng)、高鐵并駕齊驅(qū)。
在此背景下,各大廠商紛紛將“Data+AI”納入未來戰(zhàn)略規(guī)劃。云廠商、運營商、系統(tǒng)集成商乃至老牌ERP巨頭,只要有大數(shù)據(jù)業(yè)務(wù),都不約而同地將這一理念置于戰(zhàn)略顯眼位置。其中,阿里云在7月23日的飛天發(fā)布時刻上,宣布了大數(shù)據(jù)平臺ODPS的“Data+AI”戰(zhàn)略升級,針對GenAI時代企業(yè)的新需求,升級了ODPS產(chǎn)品家族,涵蓋ODPS-MaxCompute、ODPS-Hologres、ODPS-DataWorks等核心產(chǎn)品。
阿里云的這一升級不僅為“Data+AI”熱潮添柴加薪,更釋放出一個深層信號:在AI時代,大數(shù)據(jù)平臺正從數(shù)據(jù)處理工具集轉(zhuǎn)變?yōu)榈讓訑?shù)據(jù)基礎(chǔ)設(shè)施。ODPS已率先完成這一轉(zhuǎn)型。
“Data+AI”之所以成為大勢所趨,源于企業(yè)面臨的數(shù)據(jù)困境日益復(fù)雜。數(shù)字化轉(zhuǎn)型遺留的“數(shù)據(jù)孤島”問題尚未解決,GenAI又帶來了多模態(tài)數(shù)據(jù)處理、實時性、算力及治理能力的新挑戰(zhàn)。這些挑戰(zhàn)要求業(yè)界呼喚一種全局思維、全能型的數(shù)據(jù)基礎(chǔ)設(shè)施。
回顧歷史,阿里巴巴在電商業(yè)務(wù)快速發(fā)展時也曾遭遇“數(shù)據(jù)孤島”困擾。因此,自2009年啟動“飛天”項目以來,阿里便同步布局大數(shù)據(jù)業(yè)務(wù)。阿里云針對不同數(shù)據(jù)生命周期環(huán)節(jié),提供了一系列專業(yè)化工具和平臺。例如,為解決海量數(shù)據(jù)的離線存儲和計算問題,阿里云自研了ODPS平臺;為滿足企業(yè)對數(shù)據(jù)分析的實時性要求,推出了實時數(shù)倉Hologres。
然而,GenAI的到來徹底改變了游戲規(guī)則。它要求數(shù)據(jù)平臺不僅能存儲和處理異構(gòu)數(shù)據(jù),還要能進行高效的跨模態(tài)對齊、融合與處理。同時,數(shù)據(jù)處理與AI模型訓(xùn)練需無縫銜接,全鏈路治理與安全也成為新的挑戰(zhàn)。這些環(huán)環(huán)相扣的挑戰(zhàn)構(gòu)成了一個復(fù)雜的系統(tǒng)性難題,要求數(shù)據(jù)平臺像電網(wǎng)、高鐵一樣,成為穩(wěn)定、可靠且能無縫集成各種功能的底層支撐。
阿里云ODPS的此次升級,正是從底層架構(gòu)上重新定義了“數(shù)據(jù)”與“AI”的關(guān)系。以往,數(shù)據(jù)平臺和AI平臺往往是兩個獨立體系,通過ETL或API銜接。但在GenAI時代,這種模式顯得笨拙低效。阿里云通過MaxCompute升級,將AI能力嵌入數(shù)據(jù)平臺,實現(xiàn)了數(shù)據(jù)存儲、計算、治理與AI環(huán)節(jié)的深度融合。
ODPS以對象存儲OSS為統(tǒng)一數(shù)據(jù)湖底座,結(jié)合數(shù)據(jù)湖構(gòu)建(DLF)進行統(tǒng)一的元數(shù)據(jù)管理,解決了結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一存儲和治理難題。MaxCompute和Hologres構(gòu)建了離線實時一體化能力,讓數(shù)據(jù)在湖與倉之間自由流動,同時平衡了數(shù)據(jù)計算的時效性與成本。
MaxCompute推出的新一代分布式計算框架Maxframe,與社區(qū)Pandas接口兼容,可直接在ODPS的海量數(shù)據(jù)上進行分布式計算。這意味著從數(shù)據(jù)預(yù)處理到AI模型訓(xùn)練,整個流程都可在統(tǒng)一框架內(nèi)完成。人工智能平臺PAI也可直接在MaxCompute的數(shù)據(jù)上進行模型訓(xùn)練和部署,實現(xiàn)“存算訓(xùn)”一體化。
DataWorks作為ODPS技術(shù)體系的“指揮中心”,提供了千萬級任務(wù)調(diào)度能力和主動式數(shù)據(jù)資產(chǎn)治理服務(wù),保障了Data+AI一體化開發(fā)的高效穩(wěn)定運行。它不僅支持多種計算引擎的混編任務(wù)流,還集成了智能Copilot助手,通過自然語言生成SQL,提升數(shù)據(jù)開發(fā)與分析效率。
阿里云通過這一系列核心能力的升級,構(gòu)建了一個從數(shù)據(jù)到智能的閉環(huán)。數(shù)據(jù)在統(tǒng)一的湖倉底座上被高效治理和處理,無縫流轉(zhuǎn)至AI平臺進行模型訓(xùn)練與推理,最終通過智能應(yīng)用對外提供服務(wù)。這一閉環(huán)的形成,標志著ODPS已從“大數(shù)據(jù)工具組合”轉(zhuǎn)型為“AI時代的數(shù)據(jù)基礎(chǔ)設(shè)施”。
然而,“Data+AI”的普及仍面臨挑戰(zhàn)。企業(yè)在擁抱Data+AI時,最大的障礙往往不是技術(shù)本身,而是組織文化和人才儲備。要成功轉(zhuǎn)型,企業(yè)必須培育“數(shù)據(jù)驅(qū)動決策”的文化,提升員工的數(shù)據(jù)素養(yǎng)。同時,AI時代的人才缺口也日益凸顯,企業(yè)需要既懂技術(shù)又懂業(yè)務(wù)的復(fù)合型人才。
盡管“Data+AI”的技術(shù)邊界尚不明朗,但從企業(yè)核心需求及阿里云ODPS的升級中,AI時代數(shù)據(jù)基礎(chǔ)設(shè)施的面貌已逐漸清晰。關(guān)鍵特征包括“統(tǒng)一”、“智能”和“開放”。在這些特征下,Data+AI的競爭焦點正從模型強大轉(zhuǎn)向誰能構(gòu)建出更好用的數(shù)據(jù)基礎(chǔ)設(shè)施,幫助企業(yè)釋放數(shù)據(jù)價值。
在這場平臺之戰(zhàn)中,云廠商憑借從IaaS到PaaS再到SaaS的完整技術(shù)棧占據(jù)先發(fā)優(yōu)勢。未來,云將成為企業(yè)部署AI必備的業(yè)務(wù)支撐,一體化平臺構(gòu)建的“客戶粘性”將成為云廠商最深的護城河。然而,Data+AI并非云廠商的獨角戲,專注于數(shù)據(jù)領(lǐng)域的“專業(yè)型選手”同樣值得關(guān)注。構(gòu)建一個開放、共贏的生態(tài)系統(tǒng),成為所有玩家的必然選擇。