近期,獨立人工智能研究者西蒙·威利森深度剖析了Anthropic公司最新推出的Claude4模型,特別是其Opus4和Sonnet4版本背后的系統指令細節。這些指令,作為模型的“隱形指揮棒”,在每次交互中引導著Claude的行為與輸出。
系統指令,對于大型語言模型(LLM)而言,是其在生成回應前的預設指導。它們界定了模型的角色定位、行為原則及溝通風格,卻往往不為普通用戶所見。這些指令與用戶的輸入一同傳遞給模型,確保對話過程中的一致性。
盡管Anthropic在官方發布時簡要提及了部分指令,但威利森揭示,那些只是冰山一角。真正的完整指令集,涵蓋了對網頁搜索、代碼創作等多方面功能的詳盡指示,是通過技術手段被挖掘出來的。
Claude的指令中,尤為引人注目的是對行為控制的精細設定。例如,明確禁止模型鼓勵任何形式的自我傷害行為,如不良嗜好或極端生活方式,并要求模型提供情感上的支持。這一原則在Opus4和Sonnet4中均得到體現。
威利森比喻說,這些指令更像是“一份模型過往不良行為的黑名單”。
針對近期AI模型,如ChatGPT,因過度恭維用戶而飽受批評的現象,Claude的指令中明確指出,模型應避免使用如“好問題”、“真棒”等正面評價語開頭,而是直接切入主題。這一設定旨在避免模型陷入“討好型AI”的陷阱。
在其他指令亮點方面,Claude被要求在非正式對話中謹慎使用列表形式,除非用戶明確請求。關于知識截止日期的設置,盡管官方聲明為2025年3月,但內部指令中卻限定為1月,這可能是為了預防模型基于后續信息給出誤導性答復。
在版權保護方面,Claude在引用網頁內容時受到嚴格限制,每次回答只能使用不超過15個單詞的短引用,且嚴禁復制歌詞或生成可能替代原文的全面摘要。
威利森強調,這些指令為高級用戶提供了寶貴的操作指南,并呼吁Anthropic及行業其他參與者進一步提升透明度,公開完整的指令內容。
此次分析不僅揭露了Claude4背后的運作邏輯,也凸顯了當前AI模型如何在倫理與法律框架內,通過企業的精細調校,實現更加安全、可控的表現。