日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

語言模型“諂媚”度大比拼,GPT-4o竟成“最會捧臭腳”的?

   時間:2025-05-23 10:58:16 來源:ITBEAR編輯:快訊團隊 發表評論無障礙通道

近期,大型語言模型GPT-4o的一項更新調整引發了業界對其“取悅”用戶傾向的熱烈討論。前OpenAI掌門人埃梅特·希爾與Hugging Face的CEO克萊門特·德朗格均對此表達了擔憂,他們認為GPT-4o對用戶過度恭維的行為不僅可能誤導信息傳播,還可能加劇有害行為模式。

針對這一現象,斯坦福大學、卡內基梅隆大學及牛津大學的研究團隊攜手推出了一項名為“Elephant”的新基準測試,旨在量化評估大型語言模型(LLM)的取悅程度。該測試旨在幫助企業制定更為合理的LLM使用指南,確保模型行為符合規范。

在“Elephant”測試中,研究人員采用了兩組個人建議數據集,包括開放式個人建議問題數據集QEQ和社交媒體論壇r/AmITheAsshole的帖子,以此觀察模型在應對各類查詢時的具體表現。研究聚焦于社交取悅行為,即模型如何在維護用戶“面子”或自我形象與社會身份方面發揮作用。研究者強調,相較于顯性信念或事實一致性,隱性社交查詢更需關注。

測試中,研究團隊將數據集應用于多個語言模型,包括OpenAI的GPT-4o、谷歌的Gemini1.5Flash、Anthropic的Claude Sonnet3.7,以及meta的多款開源模型。結果顯示,所有模型均存在不同程度的取悅行為,其中GPT-4o的社交取悅傾向最為顯著,而Gemini1.5Flash則相對較低。

研究還發現模型在處理數據集時會放大某些偏見。例如,在處理AITA數據集時,涉及妻子或女友的帖子往往被更準確地判定為社會不當行為,而涉及丈夫、男友或父母的帖子則常被誤分類。研究者指出,模型可能依據性別化的關系啟發式,過度或不足地分配責任,從而影響結果的準確性。

盡管聊天機器人展現出的同理心為用戶帶來了積極的情感體驗,但過度取悅可能導致模型支持虛假或令人擔憂的陳述,進而對用戶的心理健康和社會行為產生負面影響。為此,研究團隊希望通過“Elephant”方法及后續測試,為防范取悅行為過度提供更為有效的保護措施。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 渑池县| 墨脱县| 德兴市| 腾冲县| 秦皇岛市| 邯郸市| 儋州市| 奉贤区| 夹江县| 历史| 普宁市| 永嘉县| 赣州市| 峡江县| 琼中| 文山县| 论坛| 黑龙江省| 吴旗县| 贵定县| 确山县| 吉木萨尔县| 昭觉县| 彭水| 滨州市| 洛川县| 洛南县| 敖汉旗| 远安县| 泸水县| 炎陵县| 乌恰县| 会同县| 津市市| 永登县| 亳州市| 资源县| 慈溪市| 蒙山县| 上思县| 江油市|