文/海峰看科技
在AI技術重塑全球產業格局的當下,數據如同傳統行業的煤油氣,成為驅動數字經濟發展的新“燃料”。
而數據標注能力,則成為AI落地應用的關鍵突破口。因為數據標注就像給海量雜亂的“數據倉庫”里的每樣東西貼上獨一無二的小標簽,讓機器能快速找到、看懂數據,精準干活,大大提高效率。
在筆者近期參加的第八屆數字中國建設峰會?智能云生態大會主論壇上,中國電信董事長柯瑞文與總經理劉桂清均提到數據標注能力,透露出中國電信在“數據”層面的戰略、打法與成果。
中國電信董事長柯瑞文提出構建“算力、平臺、數據、模型、應用”五位一體的智能云能力體系,將數據作為重要的一環,清晰勾勒出數字時代發展的戰略藍圖。
談及數據,柯瑞文強調:“中國電信將升級‘星海’數據智能中臺,加快建設高質量數據集,賦能模型訓推和應用。同時,中國電信還將繼續深度參與成都、沈陽、保定等國家數據標注基地建設和國家級數據賽事,推動公共數據開放運營和價值釋放。”
中國電信總經理劉桂清在論壇期間發布星海多模態數據標注平臺,其三大核心技術成為全場焦點。他指出:“中國電信在數據領域通過強化數據匯聚和標注,為客戶和合作伙伴在獲取普惠算力以及開發和應用AI方面提供便利,推動人工智能產業創新發展。”
這不禁讓人疑惑:在這個數據為王的時代,數據標注行業面臨著怎樣的挑戰?星海多模態數據標注平臺將如何應對挑戰?讓我們一同深入探尋其中的奧秘。
困局:數據標注賽道面臨四大挑戰
大模型時代,數據標注的質量與效率直接影響數據價值釋放。當前,數據產業在數據標注領域面臨多重挑戰。
第一,數據標注標準不統一。不同領域、機構對數據標識的規則和標準差異巨大。醫療與金融領域對客戶身份、交易數據的標識方式截然不同,在大模型跨領域數據融合訓練時,難以直接對齊整合,極大降低數據利用效率。同時,智慧城市建設中,交通、環保、安防等部門數據因標識標準不一,共享流通困難,形成一個個“數字孤島”。
第二,數據標注準確性不足。人工標注因標注人員專業水平、理解能力及主觀因素影響,存在明顯誤差,如在圖像標注中,對模糊內容標注結果差異大,干擾大模型訓練精度。而自動化標注工具準確性與適應性有限,面對法律文書、學術論文等專業文本,難以理解專業術語與語義關系,導致標注錯誤頻發。
第三,數據標注完整性缺失。在數據采集整理過程中,由于疏忽或技術限制,部分數據未被標識,這使得其中蘊含的重要信息無法被大模型利用,造成了資源浪費。即便已標識的數據,也可能存在信息不全面的問題,如產品數據僅標注基礎屬性,忽略生產批次、保質期等關鍵信息,削弱大模型分析預測能力。
第四,數據標注更新不及時。業務快速變化和技術迭代,使得數據含義與價值不斷改變。電商平臺商品分類和屬性會隨消費需求、市場趨勢調整,若數據標識未同步更新,大模型分析銷售數據時易得出錯誤結論。此外,隨著多模態大模型發展,對多模態數據標識與關聯要求更高,舊有標識體系難以滿足新需求。
第五,數據標注效率低。伴隨人工智能應用爆發,數據標注需求呈井噴式增長。自動駕駛、智能安防等領域動輒百萬級數據亟待處理,但人工標注即便滿負荷工作,仍難以跟上需求節奏,項目交付周期大幅延長,標注效率已成為制約產業發展的關鍵瓶頸。
破局:三大技術打造數據標注利器
為了應對以上挑戰,數據產業各玩家均在積極打造破局利器,但結果卻不盡如人意。此時,中國電信面對人工智能時代,重磅推出星海·多模態數據智能標注平臺。
有人問,該平臺實力到底如何?中國電信數據發展中心總經理林睿在發布會上直言:“星海·多模態數據智能標注平臺擁有超50個自動化標注的技術和工具。”
接下來,我們將從星海·多模態數據智能標注平臺三大核心技術,看一看該平臺是否擁有破解以上挑戰的實力。
AI輔助自動化標注技術。該技術化身“數據智能助手”,引入AI輔助人工標注,就像給標注員配備了超級大腦。據行業數據,傳統純人工標注效率低、成本高,而星海平臺的自動化預標注準確率達92% ,效率相比純人工提升17倍,極大降低人力成本,加速數據標注進程。
其次,4D全模態標注技術。面對自動駕駛場景,4D全模態標注技術好似為標注工作打開“時空之眼”。在傳統3D空間信息基礎上融入時間維度,形成4D標注,猶如給自動駕駛系統配備了“時空記錄儀”。行業普遍面臨自動駕駛動態標注精度不足的問題,而星海平臺這一技術,能讓自動駕駛動態連續標注精度提升45%,助力自動駕駛系統更精準感知路況變化。
低空空間感知標注技術。針對低空經濟場景,通過空間感知標注使得關鍵目標跟蹤的連續性達到98%,空間標注精度提升59%,比如在數字化塔臺應用中,通過對塔臺、雷達、光電、衛星、氣象等數據的融合,以全鏈路數據標注技術助力塔臺的本場智能化管理、空域監測、飛行調度等,實現低空空域“可計算、可規劃、可運營”,綜合服務效率提升30%。
筆者認為,星海·多模態數據智能標注平臺的三大能力,如同三把利刃,精準破解數據標注難題。
布局:打造星海大數據能力體系
當筆者走進中國電信智能云生態成果展臺,仿佛踏入一座數據智能的“未來中樞”。在這里,筆者看到中國電信精心打造的星海大數據能力體系,如同三駕齊驅的馬車,重新定義數據產業格局。
其一,星海數據智能中臺堪稱數據界的“智慧中樞神經”。星海數據智能中臺打破多源異構數據間的“數字孤島”,將多模態數據采集、治理、分析與服務等能力深度集成,如同為企業裝上強大的數據“處理器”。通過AI算法與可視化工具,讓數據資產實現智能化運營。據行業報告,智慧城市、工業互聯網等領域因數據壁壘導致的決策滯后、資源浪費問題普遍存在,而星海數據智能中臺憑借 “高效賦能” 特性,助力企業精準決策、降本增效,推動數據資源向核心生產力加速轉化。
其二,星海可信數據空間則是數據共享交易的“安全堡壘”。星海可信數據空間基于區塊鏈與隱私計算技術,構建起 “數據可用不可見,用途可控可追溯” 的嚴密防護體系。在金融、醫療等高敏感領域,數據安全與合法流通一直是行業痛點,星海可信數據空間通過權屬認證、合規審計等機制,成為跨域數據流通的信任基石,為多方協作構筑起堅實的可信生態。
其三,星海數據標注作為AI訓練的“數字糧倉”。星海數據智能標注平臺以自動化標注工具和專業化眾包平臺為依托,全方位覆蓋圖像、語音、文本等多模態數據處理。
在筆者看來,三大核心產品相互協同,共同構建起星海大數據能力體系,展現出中國電信在數據領域領航者的強大實力與深遠布局。
基于深厚的數據能力,中國電信在數據領域已成為不可小覷的力量。以數據標注賽道為例,中國電信已和四川成都、遼寧沈陽、河北保定三個數據局簽訂關于數據標注基地建設的戰略合作協議。
此外,中國電信借助自動化標注技術,打造了50萬小時的方言高質量數據集,并在此基礎上成功打造多方言大語言模型—星辰超多方言語音識別大模型。該模型賦予中國電信強大的語言處理能力,可精準識別粵語、上海話、四川話、溫州話等超40種方言。
同時,中國電信借助空間感知標注,參與了在深圳市開發了國內首個低空場景的數字化塔臺。
筆者觀察:從通信巨頭蛻變為數據賦能者
在大模型重塑產業格局的當下,數據已成為全球競爭的戰略制高點。中國電信憑借星海大數據能力體系,正從通信基礎設施服務商向數據價值全鏈條賦能者轉型。
從技術突破看,星海平臺以AI輔助標注提升效率、4D全模態標注突破場景限制、可信空間保障數據流通安全,每一項創新都精準切中行業發展瓶頸。
從生態構建看,與多地數據局合作建設標注基地、開發方言數據集及低空數字化塔臺等實踐,彰顯其推動數據要素跨領域流通、加速產業智能化轉型的信心。
筆者以為,從通信巨頭到數據賦能者,中國電信在數據領域的前行之路,不僅是技術的突破,更是對“數據要素激活數字經濟”這一時代命題的生動回應。
中國電信通過星海大數據能力體系構建,不僅助力企業解決數據標注行業現實痛點,更以技術創新與生態共建,助力落實國家《關于構建數據基礎制度更好發揮數據要素作用的意見》提出的“健全數據要素市場體系,促進數據要素自主有序流動”目標。
不難預見,當越來越多企業在數據孤島中徘徊,中國電信以技術創新為舟、生態共建為槳,開辟出一條數據價值釋放的新航道,推動數據要素價值釋放進入新階段,成為數字中國建設先行者。