在2025年國家網絡安全宣傳周人工智能安全治理分論壇上,中文互聯網基礎語料3.0版本正式面向社會發布。此次發布活動在昆明舉行,標志著我國在人工智能數據資源建設領域邁出了重要一步。
該版本語料由中國網絡空間安全協會牽頭,聯合國家互聯網應急中心等多家單位共同完成。在前期1.0和2.0版本的基礎上,項目組充分發揮企業、高校和科研機構的協同優勢,通過語料共建共享機制,系統整合了新一批高質量可信數據。經過嚴格的信源篩選、內容過濾和數據去重等處理流程,最終形成了總容量達120GB的語料庫。
新版本顯著擴大了優質中文網站的信源覆蓋范圍,并強化了違法不良信息的過濾機制。這些改進使得語料庫能夠為人工智能大模型訓練提供更加可靠的數據支持。研究人員指出,高質量語料的持續供給對推動人工智能技術創新和產業發展具有關鍵作用。
用戶可通過中國網絡空間安全協會官方網站獲取該語料資源。具體操作流程為:訪問網站后點擊"中文互聯網語料資源平臺"入口,完成注冊和認證程序后即可下載相關數據。這一開放共享機制將有效促進人工智能領域的學術研究和產業應用。
協會負責人表示,中文互聯網基礎語料3.0的發布是各方協同努力的成果。未來將繼續聯合國家互聯網應急中心等單位,協同各行業力量,不斷完善語料庫建設,為人工智能技術發展提供堅實的數據基礎。