在2025年國家網絡安全宣傳周人工智能安全治理分論壇上,備受矚目的中文互聯網基礎語料3.0正式亮相。這一版本的數據容量高達120GB,為人工智能大模型訓練及技術發展提供了強有力的數據支撐。
該語料的研發與發布,是在中央網信辦的統籌指導下,由中國網絡空間安全協會聯合國家互聯網應急中心等多家單位共同推進。項目匯聚了企業、高校及科研機構的智慧,依托人工智能安全治理專委會搭建的語料共建共享平臺,實現了跨領域、跨行業的深度協作。
用戶可通過中國網絡空間安全協會官網,進入“中文互聯網語料資源平臺”完成注冊認證后,即可下載所需語料。相關負責人指出,此次語料庫的升級標志著中文數據資源建設邁入新階段,未來將持續優化語料庫構建,為人工智能技術創新與產業升級提供堅實保障。
此次發布的中文互聯網基礎語料3.0,不僅為人工智能領域注入了新鮮血液,也為相關研究提供了更為精準、全面的數據基礎,助力行業向更高水平邁進。