在人工智能浪潮席卷全球的當(dāng)下,高質(zhì)量數(shù)據(jù)已成為驅(qū)動(dòng)行業(yè)發(fā)展的核心資源。中國電信天翼AI憑借其強(qiáng)大的數(shù)據(jù)基礎(chǔ)設(shè)施,構(gòu)建了超過10萬億tokens的通用大模型語料庫,并打造了覆蓋14個(gè)關(guān)鍵行業(yè)的專業(yè)數(shù)據(jù)集,總存儲(chǔ)量達(dá)350TB。這些數(shù)據(jù)不僅體量龐大,更經(jīng)過精心標(biāo)注和優(yōu)化,形成多模態(tài)、行業(yè)化的高質(zhì)量數(shù)據(jù)資產(chǎn),為AI模型訓(xùn)練提供了堅(jiān)實(shí)基礎(chǔ)。
高質(zhì)量數(shù)據(jù)的價(jià)值在于其直接服務(wù)于AI模型開發(fā)。通過采集、清洗、標(biāo)注等環(huán)節(jié),原始數(shù)據(jù)被轉(zhuǎn)化為可用的訓(xùn)練素材,顯著提升模型的準(zhǔn)確性、泛化性和實(shí)用性。中國電信天翼AI打造的星辰MaaS平臺(tái),正是這一過程的關(guān)鍵載體。該平臺(tái)通過基模、數(shù)據(jù)工具鏈、模型工具鏈和智能體的協(xié)同運(yùn)作,構(gòu)建了“數(shù)據(jù)—模型—服務(wù)”的完整閉環(huán),為行業(yè)提供從數(shù)據(jù)到應(yīng)用的端到端解決方案。
星辰MaaS平臺(tái)的核心優(yōu)勢在于其四大核心能力:基模作為“動(dòng)力引擎”,提供基礎(chǔ)認(rèn)知與推理能力;數(shù)據(jù)工具鏈作為“原料庫”,持續(xù)輸送高質(zhì)量數(shù)據(jù);模型工具鏈作為“加工廠”,將數(shù)據(jù)轉(zhuǎn)化為可用模型;智能體作為“執(zhí)行中樞”,調(diào)度資源并完成復(fù)雜任務(wù)。基于這一體系,天翼AI不僅推進(jìn)了大模型、智傳網(wǎng)、具身智能等基礎(chǔ)技術(shù)研發(fā),更將技術(shù)轉(zhuǎn)化為實(shí)際產(chǎn)品,服務(wù)于產(chǎn)業(yè)場景。
在技術(shù)落地方面,天翼AI已取得顯著成果。其打造的“三全”星辰大模型體系——全模態(tài)、全尺寸、全國產(chǎn),成功訓(xùn)練出萬億參數(shù)的大模型。該模型依托全國產(chǎn)的萬卡集群和深度學(xué)習(xí)框架,在國產(chǎn)化創(chuàng)新領(lǐng)域走在前列。例如,在福建晉江的紡織廠中,基于星辰MaaS平臺(tái)的AI驗(yàn)布系統(tǒng)取代了傳統(tǒng)人工檢測,實(shí)現(xiàn)了對(duì)并緯、擦傷、斷經(jīng)等10余種瑕疵的高效檢出,檢測準(zhǔn)確率超95%,生產(chǎn)效率提升50%以上。
這一案例僅是天翼AI數(shù)據(jù)價(jià)值的冰山一角。從港口到供應(yīng)鏈,從智慧醫(yī)療到現(xiàn)代農(nóng)業(yè),高質(zhì)量數(shù)據(jù)正深度滲透至各行各業(yè)。中國電信天翼AI副總經(jīng)理阮宜龍表示,公司重倉投入數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè),源于對(duì)國家戰(zhàn)略、市場需求、運(yùn)營商優(yōu)勢和使命責(zé)任的綜合考量。AI已上升為國家戰(zhàn)略,而高質(zhì)量數(shù)據(jù)是推動(dòng)技術(shù)突破、實(shí)現(xiàn)普惠發(fā)展的關(guān)鍵。
在技術(shù)實(shí)現(xiàn)層面,星辰MaaS平臺(tái)覆蓋了數(shù)據(jù)全生命周期管理。其數(shù)據(jù)工具鏈支持文本、圖片、音視頻等多模態(tài)數(shù)據(jù)的統(tǒng)一接入和存儲(chǔ),通過上百種處理工具實(shí)現(xiàn)數(shù)據(jù)清洗、轉(zhuǎn)換和增強(qiáng)。例如,在自動(dòng)駕駛領(lǐng)域,平臺(tái)利用AIGC技術(shù)生成極端天氣和罕見事故的數(shù)據(jù)集,彌補(bǔ)現(xiàn)實(shí)數(shù)據(jù)采集的不足。模型工具鏈則支持40多種標(biāo)注任務(wù),通過AI預(yù)標(biāo)注將效率提升5倍以上,降低標(biāo)注成本。
對(duì)于高質(zhì)量數(shù)據(jù)的定義,天翼AI認(rèn)為需結(jié)合模型訓(xùn)練階段和應(yīng)用場景。基礎(chǔ)大模型預(yù)訓(xùn)練數(shù)據(jù)集更關(guān)注規(guī)范性、完整性和安全性,而行業(yè)微調(diào)數(shù)據(jù)集則強(qiáng)調(diào)全面性、多樣性和專有知識(shí)。以紡織缺陷檢測為例,高質(zhì)量數(shù)據(jù)集需覆蓋20余種瑕疵類型,包含油污、水漬等多樣形態(tài),并精準(zhǔn)標(biāo)注瑕疵位置和類別。
在服務(wù)大型央企時(shí),天翼AI針對(duì)其生產(chǎn)優(yōu)化、系統(tǒng)復(fù)雜度高、安全和國產(chǎn)化要求等特點(diǎn),提供端到端解決方案。例如,為物流集團(tuán)構(gòu)建的AI套件納管超500P國產(chǎn)化算力卡,支撐流云大模型及CV模型研發(fā),賦能全國智慧物流場景。在國家級(jí)數(shù)據(jù)標(biāo)注基地建設(shè)中,天翼AI不僅提供技術(shù)平臺(tái),更扮演產(chǎn)業(yè)生態(tài)規(guī)劃者、產(chǎn)能運(yùn)營者和新職業(yè)培育者的角色,推動(dòng)“算力供給-數(shù)據(jù)生產(chǎn)-模型訓(xùn)練-應(yīng)用落地”生態(tài)鏈的形成。
目前,天翼AI的高質(zhì)量數(shù)據(jù)集已在14個(gè)行業(yè)、30多個(gè)場景中落地。在醫(yī)療領(lǐng)域,與三甲醫(yī)院合作構(gòu)建的醫(yī)療質(zhì)量管理數(shù)據(jù)集,推動(dòng)醫(yī)院運(yùn)行管理智能化;在農(nóng)業(yè)領(lǐng)域,為雄安新區(qū)打造的“雄小農(nóng)”應(yīng)用,幫助農(nóng)民增收超15%;在政務(wù)服務(wù)領(lǐng)域,與深圳市政數(shù)局合作構(gòu)建的民生訴求數(shù)據(jù)集,支撐25個(gè)智能應(yīng)用場景。這些案例表明,高質(zhì)量數(shù)據(jù)正從實(shí)驗(yàn)室走向產(chǎn)業(yè)一線,創(chuàng)造實(shí)際價(jià)值。
除數(shù)據(jù)和算法外,天翼AI還圍繞數(shù)據(jù)治理、模型健壯性和應(yīng)用可信性,自主研發(fā)星辰大模型安全圍欄,防范意識(shí)形態(tài)和惡意利用風(fēng)險(xiǎn)。其推出的星辰系列大模型已完成雙備案,并開源了國內(nèi)領(lǐng)先的“全模態(tài)、全尺寸、全國產(chǎn)”模型。面向B端用戶,提供18項(xiàng)API服務(wù);面向C端用戶,發(fā)布“智能反詐”應(yīng)用和智能玩偶;面向家庭場景,推出AI智能眼鏡,覆蓋多場景需求。
中國電信天翼AI的最終愿景是成為國家戰(zhàn)略科技力量和領(lǐng)先的通用人工智能服務(wù)提供商。為此,公司將在技術(shù)上追求領(lǐng)先,探索前沿領(lǐng)域;在應(yīng)用上追求普惠,讓AI走進(jìn)千家萬戶;在生態(tài)上保持開放,支持全球開發(fā)者參與建設(shè);在人才上實(shí)現(xiàn)研用一體,培養(yǎng)高層次AI隊(duì)伍。作為AI國家隊(duì),天翼AI將持續(xù)強(qiáng)化賦能,打造高價(jià)值行業(yè)大模型,同時(shí)構(gòu)建安全防護(hù)體系,確保數(shù)字經(jīng)濟(jì)紅利全民共享。