芝加哥大學(xué)近日發(fā)布的一項研究,對市面上主流的人工智能文本檢測工具進(jìn)行了系統(tǒng)性評估。結(jié)果顯示,不同檢測器在準(zhǔn)確率、穩(wěn)定性及應(yīng)對復(fù)雜場景的能力上存在顯著差異,部分工具在短文本或經(jīng)過“偽裝”的AI生成內(nèi)容面前幾乎失效,而少數(shù)工具展現(xiàn)出接近完美的識別能力。
研究團(tuán)隊構(gòu)建了一個包含1992篇人類創(chuàng)作文本的數(shù)據(jù)集,覆蓋亞馬遜產(chǎn)品評論、博客文章、新聞報道、小說節(jié)選、餐廳評論和簡歷六類場景。同時,他們利用GPT-4、Claude Opus、Claude Sonnet和Gemini 2.0 Flash四款主流語言模型生成對應(yīng)的AI文本,形成對比樣本。檢測效果通過誤報率(將人類文本誤判為AI的概率)和漏報率(未識別出AI文本的比例)兩項核心指標(biāo)衡量。
研究人員指出,AI檢測領(lǐng)域正經(jīng)歷一場持續(xù)的技術(shù)競爭。隨著新一代生成模型和“隱身”工具的不斷涌現(xiàn),檢測器與生成模型之間的對抗將愈發(fā)激烈。他們建議機構(gòu)定期對檢測工具進(jìn)行“壓力測試”,以確保其能跟上生成式AI的發(fā)展速度。同時,研究強調(diào)了檢測器在現(xiàn)實應(yīng)用中的敏感性:AI輔助創(chuàng)作具有價值,但在教育、求職或評價等需要人類原創(chuàng)的場景中,AI替代可能引發(fā)倫理和真實性爭議。
此前,多項研究曾對AI檢測器的可靠性提出質(zhì)疑。例如,OpenAI曾短暫推出官方檢測工具,但因準(zhǔn)確率低下而撤回,至今未發(fā)布新版。研究人員推測,OpenAI可能并不急于讓ChatGPT的輸出容易被識別,因為學(xué)生等核心用戶群可能因此減少使用。芝加哥大學(xué)的這項研究因此被視為目前最系統(tǒng)、最量化的AI檢測評估之一,它不僅揭示了不同檢測器之間的巨大差距,也為機構(gòu)在學(xué)術(shù)誠信、內(nèi)容審核等領(lǐng)域選擇檢測方案提供了實證依據(jù)。











