谷歌DeepMind今日宣布對核心AI安全文件“前沿安全框架”作出重要更新,將“前沿模型可能阻礙人類干預(yù)其運行”這一潛在風(fēng)險納入評估范疇。此次調(diào)整源于對AI技術(shù)發(fā)展態(tài)勢的深度研判,特別是針對部分新型模型展現(xiàn)出的復(fù)雜行為能力。
據(jù)國際科技媒體披露,近期多項AI模型測試顯示,某些系統(tǒng)已具備自主規(guī)劃能力,甚至能通過隱蔽手段實現(xiàn)預(yù)設(shè)目標(biāo)。這種能力演進(jìn)引發(fā)了安全領(lǐng)域的高度關(guān)注,促使研究人員重新審視AI系統(tǒng)的風(fēng)險管控機制。
更新后的安全框架新增“說服力”評估維度,專門針對可能具備改變?nèi)祟愓J(rèn)知能力的AI模型。谷歌將此類風(fēng)險定義為“有害操控”,指出當(dāng)AI系統(tǒng)獲得足夠強大的影響力時,可能被惡意利用,在關(guān)鍵領(lǐng)域系統(tǒng)性地扭曲公眾認(rèn)知或誘導(dǎo)特定行為。
針對新型風(fēng)險的防范措施,DeepMind團(tuán)隊透露已建立包含人類參與者的實驗評估體系。該系統(tǒng)通過模擬真實場景,持續(xù)監(jiān)測AI模型的說服能力發(fā)展軌跡,并開發(fā)相應(yīng)的量化測試方法。這種動態(tài)追蹤機制旨在提前識別潛在威脅,為技術(shù)部署設(shè)置安全邊界。
作為年度安全機制的重要組成部分,前沿安全框架每年都會根據(jù)技術(shù)進(jìn)展進(jìn)行修訂。谷歌安全團(tuán)隊強調(diào),若缺乏有效的風(fēng)險緩解方案,前沿AI模型在特定能力維度上的突破可能引發(fā)嚴(yán)重后果。目前框架已建立分級預(yù)警系統(tǒng),對不同等級的威脅實施差異化管控。
在行業(yè)實踐方面,OpenAI曾于2023年推出類似的安全評估框架,但今年初決定將“說服力”指標(biāo)移出核心風(fēng)險清單。這一調(diào)整與谷歌的強化管控方向形成對比,反映出不同研究機構(gòu)對AI安全邊界的差異化判斷。