斯坦福大學(xué)研究團(tuán)隊在Cell Press旗下《Patterns》期刊發(fā)表最新研究,通過對Newswire、PRWeb和PRNewswire等主流平臺的英語文本進(jìn)行系統(tǒng)分析,發(fā)現(xiàn)人工智能生成內(nèi)容已深度滲透正式書面交流場景。該研究采用名為"分布式語言模型量化框架"的統(tǒng)計模型,通過語言特征分布分析特定時間段內(nèi)AI生成文本的占比,但目前該方法僅適用于英語語料。
研究團(tuán)隊對2023年海量文本數(shù)據(jù)進(jìn)行抽樣分析,包括68.7萬份消費(fèi)者投訴、53.7萬篇企業(yè)新聞稿、3.04億條招聘信息以及1.6萬篇聯(lián)合國官方文稿。結(jié)果顯示,約24%的企業(yè)新聞稿、18%的消費(fèi)者投訴、14%的聯(lián)合國新聞稿以及近10%的招聘信息存在顯著AI生成特征。這些文本或直接由大模型生成,或經(jīng)過深度編輯修改。
數(shù)據(jù)對比顯示,教育水平較低地區(qū)的投訴文本中AI使用率達(dá)19.9%,高于教育水平較高地區(qū)的17.4%。在招聘領(lǐng)域,中小企業(yè)和初創(chuàng)公司表現(xiàn)尤為突出,約10%-15%的招聘公告帶有明顯AI生成痕跡。研究人員指出,這種差異可能與資源獲取能力和寫作效率需求有關(guān)。
該統(tǒng)計模型通過分析詞匯選擇、句式結(jié)構(gòu)、語義連貫性等語言特征,建立AI生成文本的識別標(biāo)準(zhǔn)。但研究團(tuán)隊特別說明,檢測結(jié)果僅反映文本中AI參與的程度,不能等同于全文由AI獨(dú)立完成。目前的技術(shù)手段仍無法精確區(qū)分人類修改與AI原創(chuàng)的界限。
隨著生成式AI技術(shù)的持續(xù)進(jìn)化,其文本生成能力與人類寫作風(fēng)格的界限日益模糊。研究人員提醒,未來識別文本中AI參與度的難度將不斷增加,這對內(nèi)容真實(shí)性核查和學(xué)術(shù)誠信管理提出了新挑戰(zhàn)。當(dāng)前研究僅覆蓋英語文本,其他語種的AI滲透情況仍有待進(jìn)一步探索。











