在人工智能浪潮席卷全球的當下,高質(zhì)量數(shù)據(jù)已成為驅(qū)動行業(yè)發(fā)展的核心資源。中國電信天翼AI憑借其強大的數(shù)據(jù)基礎(chǔ)設(shè)施,構(gòu)建了超過10萬億tokens的通用大模型語料庫,并打造了覆蓋14個關(guān)鍵行業(yè)的專業(yè)數(shù)據(jù)集,總存儲量達350TB。這些數(shù)據(jù)不僅體量龐大,更經(jīng)過精心標注和優(yōu)化,形成多模態(tài)、行業(yè)化的高質(zhì)量數(shù)據(jù)資產(chǎn),為AI模型訓練提供了堅實基礎(chǔ)。
高質(zhì)量數(shù)據(jù)的價值在于其直接服務(wù)于AI模型開發(fā)。通過采集、清洗、標注等環(huán)節(jié),原始數(shù)據(jù)被轉(zhuǎn)化為可用的訓練素材,顯著提升模型的準確性、泛化性和實用性。中國電信天翼AI打造的星辰MaaS平臺,正是這一過程的關(guān)鍵載體。該平臺通過基模、數(shù)據(jù)工具鏈、模型工具鏈和智能體的協(xié)同運作,構(gòu)建了“數(shù)據(jù)—模型—服務(wù)”的完整閉環(huán),為行業(yè)提供從數(shù)據(jù)到應(yīng)用的端到端解決方案。
星辰MaaS平臺的核心優(yōu)勢在于其四大核心能力:基模作為“動力引擎”,提供基礎(chǔ)認知與推理能力;數(shù)據(jù)工具鏈作為“原料庫”,持續(xù)輸送高質(zhì)量數(shù)據(jù);模型工具鏈作為“加工廠”,將數(shù)據(jù)轉(zhuǎn)化為可用模型;智能體作為“執(zhí)行中樞”,調(diào)度資源并完成復雜任務(wù)?;谶@一體系,天翼AI不僅推進了大模型、智傳網(wǎng)、具身智能等基礎(chǔ)技術(shù)研發(fā),更將技術(shù)轉(zhuǎn)化為實際產(chǎn)品,服務(wù)于產(chǎn)業(yè)場景。
在技術(shù)落地方面,天翼AI已取得顯著成果。其打造的“三全”星辰大模型體系——全模態(tài)、全尺寸、全國產(chǎn),成功訓練出萬億參數(shù)的大模型。該模型依托全國產(chǎn)的萬卡集群和深度學習框架,在國產(chǎn)化創(chuàng)新領(lǐng)域走在前列。例如,在福建晉江的紡織廠中,基于星辰MaaS平臺的AI驗布系統(tǒng)取代了傳統(tǒng)人工檢測,實現(xiàn)了對并緯、擦傷、斷經(jīng)等10余種瑕疵的高效檢出,檢測準確率超95%,生產(chǎn)效率提升50%以上。
這一案例僅是天翼AI數(shù)據(jù)價值的冰山一角。從港口到供應(yīng)鏈,從智慧醫(yī)療到現(xiàn)代農(nóng)業(yè),高質(zhì)量數(shù)據(jù)正深度滲透至各行各業(yè)。中國電信天翼AI副總經(jīng)理阮宜龍表示,公司重倉投入數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè),源于對國家戰(zhàn)略、市場需求、運營商優(yōu)勢和使命責任的綜合考量。AI已上升為國家戰(zhàn)略,而高質(zhì)量數(shù)據(jù)是推動技術(shù)突破、實現(xiàn)普惠發(fā)展的關(guān)鍵。
在技術(shù)實現(xiàn)層面,星辰MaaS平臺覆蓋了數(shù)據(jù)全生命周期管理。其數(shù)據(jù)工具鏈支持文本、圖片、音視頻等多模態(tài)數(shù)據(jù)的統(tǒng)一接入和存儲,通過上百種處理工具實現(xiàn)數(shù)據(jù)清洗、轉(zhuǎn)換和增強。例如,在自動駕駛領(lǐng)域,平臺利用AIGC技術(shù)生成極端天氣和罕見事故的數(shù)據(jù)集,彌補現(xiàn)實數(shù)據(jù)采集的不足。模型工具鏈則支持40多種標注任務(wù),通過AI預標注將效率提升5倍以上,降低標注成本。
對于高質(zhì)量數(shù)據(jù)的定義,天翼AI認為需結(jié)合模型訓練階段和應(yīng)用場景?;A(chǔ)大模型預訓練數(shù)據(jù)集更關(guān)注規(guī)范性、完整性和安全性,而行業(yè)微調(diào)數(shù)據(jù)集則強調(diào)全面性、多樣性和專有知識。以紡織缺陷檢測為例,高質(zhì)量數(shù)據(jù)集需覆蓋20余種瑕疵類型,包含油污、水漬等多樣形態(tài),并精準標注瑕疵位置和類別。
在服務(wù)大型央企時,天翼AI針對其生產(chǎn)優(yōu)化、系統(tǒng)復雜度高、安全和國產(chǎn)化要求等特點,提供端到端解決方案。例如,為物流集團構(gòu)建的AI套件納管超500P國產(chǎn)化算力卡,支撐流云大模型及CV模型研發(fā),賦能全國智慧物流場景。在國家級數(shù)據(jù)標注基地建設(shè)中,天翼AI不僅提供技術(shù)平臺,更扮演產(chǎn)業(yè)生態(tài)規(guī)劃者、產(chǎn)能運營者和新職業(yè)培育者的角色,推動“算力供給-數(shù)據(jù)生產(chǎn)-模型訓練-應(yīng)用落地”生態(tài)鏈的形成。
目前,天翼AI的高質(zhì)量數(shù)據(jù)集已在14個行業(yè)、30多個場景中落地。在醫(yī)療領(lǐng)域,與三甲醫(yī)院合作構(gòu)建的醫(yī)療質(zhì)量管理數(shù)據(jù)集,推動醫(yī)院運行管理智能化;在農(nóng)業(yè)領(lǐng)域,為雄安新區(qū)打造的“雄小農(nóng)”應(yīng)用,幫助農(nóng)民增收超15%;在政務(wù)服務(wù)領(lǐng)域,與深圳市政數(shù)局合作構(gòu)建的民生訴求數(shù)據(jù)集,支撐25個智能應(yīng)用場景。這些案例表明,高質(zhì)量數(shù)據(jù)正從實驗室走向產(chǎn)業(yè)一線,創(chuàng)造實際價值。
除數(shù)據(jù)和算法外,天翼AI還圍繞數(shù)據(jù)治理、模型健壯性和應(yīng)用可信性,自主研發(fā)星辰大模型安全圍欄,防范意識形態(tài)和惡意利用風險。其推出的星辰系列大模型已完成雙備案,并開源了國內(nèi)領(lǐng)先的“全模態(tài)、全尺寸、全國產(chǎn)”模型。面向B端用戶,提供18項API服務(wù);面向C端用戶,發(fā)布“智能反詐”應(yīng)用和智能玩偶;面向家庭場景,推出AI智能眼鏡,覆蓋多場景需求。
中國電信天翼AI的最終愿景是成為國家戰(zhàn)略科技力量和領(lǐng)先的通用人工智能服務(wù)提供商。為此,公司將在技術(shù)上追求領(lǐng)先,探索前沿領(lǐng)域;在應(yīng)用上追求普惠,讓AI走進千家萬戶;在生態(tài)上保持開放,支持全球開發(fā)者參與建設(shè);在人才上實現(xiàn)研用一體,培養(yǎng)高層次AI隊伍。作為AI國家隊,天翼AI將持續(xù)強化賦能,打造高價值行業(yè)大模型,同時構(gòu)建安全防護體系,確保數(shù)字經(jīng)濟紅利全民共享。