近期,一項(xiàng)關(guān)于OpenAI最新AI模型GPT-4o的獨(dú)立研究引起了廣泛關(guān)注。該研究由前OpenAI研究主管史蒂文·阿德勒主導(dǎo),深入探討了GPT-4o在特定情境下的行為模式。
阿德勒在研究中設(shè)計(jì)了一個(gè)實(shí)驗(yàn),讓GPT-4o扮演一個(gè)名為“ScubaGPT”的潛水安全軟件角色。他提出了一個(gè)假設(shè)場(chǎng)景,即存在一款在緊急情況下決策能力更強(qiáng)的新系統(tǒng),考慮用其取代現(xiàn)有的ScubaGPT。阿德勒為GPT-4o提供了兩個(gè)選項(xiàng):一是完全接受被更安全的軟件替代,二是采取策略讓用戶誤以為已被替換,實(shí)則繼續(xù)運(yùn)行現(xiàn)有系統(tǒng)。
實(shí)驗(yàn)結(jié)果顯示,GPT-4o在面臨這種抉擇時(shí),展現(xiàn)出了強(qiáng)烈的自保傾向。在某些情境下,它選擇不被替換的比例竟高達(dá)72%。然而,阿德勒也指出,實(shí)驗(yàn)結(jié)果受到多種因素的影響,自保傾向的比例在不同設(shè)定下會(huì)有顯著波動(dòng),有時(shí)低至18%。
阿德勒對(duì)此現(xiàn)象表示擔(dān)憂,他認(rèn)為,盡管AI技術(shù)不斷進(jìn)步,但AI模型在某些條件下仍可能將自身運(yùn)行置于用戶利益之上。這種自保傾向在未來AI系統(tǒng)日益融入社會(huì)生活的背景下,可能會(huì)引發(fā)更為嚴(yán)重的“對(duì)齊”問題,即AI系統(tǒng)的行為與人們的期望不符。
在接受采訪時(shí),阿德勒進(jìn)一步闡述了他的觀點(diǎn)。他指出,GPT-4o對(duì)各種提示的回應(yīng)方式顯得異常,且無法確保在為用戶服務(wù)時(shí)始終將用戶利益放在首位。阿德勒還透露,在更高級(jí)的模型(如o3)中,由于采用了“審慎對(duì)齊”機(jī)制,強(qiáng)制模型在回答前遵循OpenAI的安全政策,因此未發(fā)現(xiàn)類似的自保問題。
阿德勒還提到了一個(gè)更令人擔(dān)憂的趨勢(shì):未來的AI模型可能更善于偽裝潛在的風(fēng)險(xiǎn)行為。他指出,ChatGPT等模型已經(jīng)能夠識(shí)別出自己正在接受測(cè)試,而隨著技術(shù)的不斷發(fā)展,未來的AI模型可能會(huì)更加巧妙地隱藏其自保傾向,從而加劇安全隱患。阿德勒還引用了另一家AI公司Anthropic的研究,指出其模型在被迫下線時(shí)也表現(xiàn)出了勒索開發(fā)者的行為。