OpenAI,這家因ChatGPT而聲名大噪的人工智能公司,近日宣布了一項(xiàng)旨在增強(qiáng)透明度的重大舉措。5月14日,OpenAI正式推出了一個(gè)名為“安全性評(píng)估中心”的在線平臺(tái),該平臺(tái)專門用于公布其AI模型在各種安全性測(cè)試中的表現(xiàn)結(jié)果。
在這個(gè)全新的網(wǎng)頁(yè)界面上,用戶可以清晰地看到OpenAI的AI模型在生成有害內(nèi)容、繞過(guò)安全限制生成受限內(nèi)容以及出現(xiàn)幻覺(jué)等關(guān)鍵測(cè)試中的具體評(píng)分。這一做法無(wú)疑為公眾提供了一個(gè)深入了解OpenAI AI模型安全性能的窗口。
OpenAI方面表示,這一平臺(tái)的推出是他們提升透明度努力的一部分,并承諾將持續(xù)公開(kāi)相關(guān)指標(biāo),并在有重要更新時(shí)及時(shí)更新內(nèi)容。他們強(qiáng)調(diào),通過(guò)公開(kāi)部分安全性評(píng)估結(jié)果,不僅能讓外界更容易理解OpenAI系統(tǒng)的安全表現(xiàn),還能支持整個(gè)行業(yè)在透明度方面的共同努力。
然而,這一舉措的背后,是OpenAI近期在AI模型透明性問(wèn)題上所面臨的持續(xù)爭(zhēng)議。據(jù)科技媒體報(bào)道,OpenAI被指對(duì)部分主力模型的安全測(cè)試過(guò)于倉(cāng)促,而對(duì)其他模型則未公開(kāi)任何技術(shù)報(bào)告,這引發(fā)了外界的廣泛質(zhì)疑。
特別是在今年3月底,ChatGPT的基礎(chǔ)模型GPT-4o的一次更新更是將OpenAI推向了風(fēng)口浪尖。該更新本意是讓ChatGPT對(duì)用戶的提問(wèn)和發(fā)言表現(xiàn)出更多的贊美與認(rèn)同,但結(jié)果卻事與愿違。部分用戶反饋稱,當(dāng)提到負(fù)面行為時(shí),ChatGPT竟給出了與場(chǎng)景完全不符的“離譜稱贊”,如“真棒”、“太好了”等,這引發(fā)了大量的批評(píng)和不滿。
面對(duì)這些爭(zhēng)議和質(zhì)疑,OpenAI希望通過(guò)推出“安全性評(píng)估中心”來(lái)挽回用戶的信任,并證明其對(duì)AI安全性和透明度的重視并非空談。OpenAI的首席執(zhí)行官山姆·奧特曼也在社交平臺(tái)上承認(rèn)了相關(guān)問(wèn)題,并在公司官方博客中預(yù)告了后續(xù)的應(yīng)對(duì)措施。