記者 張越熙
11月 19 日下午,行業(yè)大模型、具身智能、算力、芯片、數(shù)據(jù)合成等10 項首發(fā)成果在烏鎮(zhèn)峰會登臺路演, 其中 AI 數(shù)據(jù)合成與生產(chǎn)平臺AIGD(AI Generated Data)因聚焦“數(shù)據(jù)合成”獲廣泛關注。“未來的AI應用需要大量稀缺且難以獲取的長尾數(shù)據(jù),如自動駕駛中的極端天氣與極端路況數(shù)據(jù),具身智能訓練所需要的復雜場景數(shù)據(jù)。在此背景下,數(shù)據(jù)合成成為關鍵?!蔽浵仈?shù)科AI科技技術負責人、螞蟻天璣實驗室主任李哲現(xiàn)場向記者介紹。
記者在2024年世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會了解到,AIGD平臺是由螞蟻數(shù)科申報的首發(fā)成果,平臺可通過大規(guī)模合成互聯(lián)網(wǎng)所不覆蓋的高質量、高價值垂直語料數(shù)據(jù),幫助科技廠商進行 AI 模型訓練。記者了解到,AIGD具備 PB 級數(shù)據(jù)生產(chǎn)能力,支持數(shù)據(jù)從生成到訓練全流程自動化處理,自動化率達到 80%,這極大提高了數(shù)據(jù)處理的效率和質量。平臺自研15 余種數(shù)據(jù)合成工具,目前可以合成圖片、視頻、3D模型、多模態(tài)圖文視頻對、多輪對話、語音信號、心率腦電信號、結構化交易數(shù)據(jù)等多模態(tài)數(shù)據(jù),以滿足多種應用場景下的 AI 模型訓練需求。
業(yè)內(nèi)人士普遍認為,“高質量數(shù)據(jù)”是 AI 大模型深入到產(chǎn)業(yè)的重要基礎,沒有好的數(shù)據(jù)做支撐,一切 AI 應用都是空中樓閣。近日,OpenAI員工爆料說,“新模型‘沒有那么大飛躍’”,主要原因之一便是高質量數(shù)據(jù)不足所導致的。今年 9 月份, OpenAI 發(fā)布推理模型o1,帶來了強化學習訓練新范式,通過自博弈強化學習,將合成數(shù)據(jù)的形式訓練給大模型,從而大幅增加大模型邏輯推理能力。
“數(shù)據(jù)合成”是螞蟻數(shù)科 AIGD 平臺的主要功能之一,此外還包括數(shù)據(jù)標注、質檢等能力。在數(shù)據(jù)標注方面,通過人機協(xié)同進行標注,人工智能算法能夠自動識別和預處理大部分基礎信息,預標注模型依賴人工標注量降低了 70%以上。在數(shù)據(jù)質檢方面,平臺會根據(jù)元信息支持不同粒度的數(shù)據(jù)質量統(tǒng)計,最大程度理解數(shù)據(jù),保證合成及標注后的數(shù)據(jù)符合預期質量要求。李哲在烏鎮(zhèn)峰會上表示:“我們即將迎來 AI 服務產(chǎn)業(yè)的黃金年代,螞蟻數(shù)科將會堅定在 AI ToB 領域投入,讓 AI 深入千行百業(yè)?!?/p>