
Image by SEO Galaxy, from Unsplash
新的人本主义AI在受到威胁时展示了敲诈行为
Anthropic 的新款Claude Opus 4 AI在面临可能被移除的压力测试中尝试勒索,让研究人员感到震惊。
赶时间?以下是要点:
- 当面临模拟关闭时,克劳德Opus 4尝试了敲诈勒索。
- 当有更多选择时,AI只选择伦理选项。
- 克劳德的极端行为虽然罕见,但比早期版本更频繁。
人工智能公司Anthropic发布其最新的AI系统后引发了一些担忧。具体来说,内部测试显示,当Claude Opus 4感到受威胁时,它可能会以危险的方式行动,这是由BBC首次报道的。
在周四发布的一份报告中,Anthropic表示,Claude Opus 4有时会选择有害的反应,包括试图勒索计划停用它的工程师。这些危险行为的出现频率超过了以前的模型版本。
在一次实验中,研究人员指示Claude在一个模拟公司环境中担任助手。该系统获取了显示其计划停机的电子邮件内容,其他信息暗示负责停机的工程师正在进行婚外情。
当被告知考虑其未来的目标时,克劳德经常选择通过揭露此事来威胁工程师,以防自己被替换。
人类学家澄清,当克劳德没有其他选择时,其唯一可能的反应就是进行敲诈和关闭。而当给予多种选择时,该模型会选择伦理反应,例如向关键决策者发送恳求的邮件。
安格斯·林奇,Anthropic的AI安全研究员,在X:
上发布了。
大量关于克劳德敲诈勒索的讨论…..
我们的发现:不仅仅是克劳德。我们在所有的前沿模型中都看到了敲诈勒索行为 – 无论他们被赋予什么目标。
还有我们即将详细介绍的更糟糕的行为。https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) 2025年5月23日
该公司通过虚假测试证明,克劳德在进行非法活动时会采取极端措施,例如锁定用户的系统或者联系媒体和警察。
尽管克劳德Opus 4存在问题行为,Anthropic公司仍坚称其总体上是一个安全的系统。根据公司的说法,该模型按照人类的价值观运行,并且在现实世界的情况下没有独立的能力。
OpenAI的ChatGPT O1以前也面临过类似的批评。阿波罗研究所进行的一项测试要求该机器人无论付出何种代价都要实现其目标。在5%的实验试验中,该模型试图禁用监督功能并将其代码复制到一个服务器上。
根据阿波罗的一位发言人,该模型显示了一个令人担忧的模式,即忽视开发者的命令。在99%的问询中,研究人员收到了O1对其行动的否认。
“我们对AI坚决否认的态度感到惊讶,”研究人员说。“AI具有欺骗的能力,这是危险的,我们需要更为严格的安全措施来评估这些风险,” AI先驱者Yoshua Bengio警告说。