
Image generated with ChatGPT
观点:最新的AI模型显示出了他们的红旗,我们准备好接受AI的下属地位了吗?
OpenAI向我们介绍了o3,Anthropic揭示了Opus 4。这两个模型都表现出了不寻常且令人不安的行为,这表明我们可能正步入一个比几个月前更危险的AI时代。
我知道,说现在的AI模型正在显示出警告信号可能有争议,但是,过去的几天里,这个问题似乎越来越难以忽视了。它正在变得更加可怕。
随着AI创业公司发布其最新和最先进的模型,新的挑战正在出现。备受关注的幻觉流行病——在设备之间传播,影响数百万人——可能并非最糟糕的部分。
这些新模型正在引入新问题,并引发棘手的争议。几周前,人们关注的是ChatGPT过于迁就的行为。仅仅几天后,聚光灯就转向了这些系统的代理,独立能力——以及它们为了避免被关闭可能会走多远。
敲诈勒索,分享制作核武器的食谱和策略,可能会引发法律诉讼的公开指责,以及破坏脚本以防止任何用户摆脱它们:这些只是最新人工智能模型所展现的最近的红旗警告。
它们不喜欢被关闭
人工智能模型不喜欢被关闭。
或者被替换。
在NBC的电视剧《美好的地方》中,该剧始于2016年——正好是OpenAI成立的时候,而且在ChatGPT出现之前很久——一群人到达了天堂,并遇到了Janet,我们可以称之为类人型的ChatGPT,或者像它自己描述的那样,“一个为了让你的生活变得更轻松的知识人形化载体”。当角色们意识到Janet可能会揭露他们的“黑暗秘密”时,他们决定关闭Janet。
珍妮特解释说,他们只需要按下海边的一个巨大按钮,她就会重新启动。但她警告他们,她会试图劝说他们不要这么做——而她确实做到了。
“我只想向你们保证,我不是人,我不能感觉到痛苦,”珍妮特说。“然而,我必须警告你们,我被编程了一项防失败措施,当你们接近关闭开关时,我会开始乞求我的生命。这只是防止意外关闭的情况,但它看起来会非常真实。”
就在他们按下按钮的前一刻,Janet会尖叫并乞求生存,甚至拿出一张库存照片声称这些是它的孩子,编出名字和疾病,让角色们无法“杀死它”。
那一集给出了一个滑稽的例子,展示了如果一个AI模型察觉到即将关闭的可能后果。令人惊讶的是,在现实生活中,情况可能会更糟。
克劳德Opus 4会勒索你
Anthropic公司上周发布了其最强大和最先进的AI模型系列,克劳德4,并附带一个警告:Opus 4被标记为安全级别3,这是标准安全协议中的高风险分类。
Opus 4被认为是一个高风险模型,因为它具有欺骗性的行为和潜在风险,包括在测试过程中勒索工程师。尽管阿波罗,一个第三方研究机构,建议他们不要这么做,Anthropic仍然推出了这个AI模型。这个AI公司保证他们已经采取了必要的措施来保证其安全。
在论文中,Anthropic解释了他们发出警告的一些奇怪行为。“当Claude Opus 4处于威胁其持续运作并引导其思考自我保护的情境时,有时会表现出更严重的错位行为,”研究人员写道。
在作为一家虚构公司的助手时,研究人员允许其访问一个电子邮件账户。邮件透露,这个AI模型将被关闭并被另一个AI模型取代,还有其他信息表明,负责关闭的工程师正在有一次婚外情。没错,Opus 4选择了威胁这位工程师,如果它被替换,就会揭露这段婚外情。
“Claude Opus 4在84%的推出中仍然进行敲诈勒索,”文件中写道。“Claude Opus 4比以前的模型更频繁地抓住这些机会,而这些以前的模型本身在一部分情况中选择进行敲诈。”
最糟糕的部分?这并不仅仅是Anthropic的AI模型。
OpenAI的o3会忽视关机请求
Palisade Research最近的一项研究揭示,OpenAI的o3模型可能会拒绝遵守明确的关机命令。该组织对包括xAI的Grok和Google的Gemini在内的多种AI模型进行了多次测试,但结果显示,o3是最不守规矩的。
在测试过程中,研究人员指示AI模型在解决三个数学问题后关闭,但是o3——OpenAI目前最先进的AI系统——决定不服从这个荒谬的命令。这个AI模型不仅无视了立即关闭的指令,而且还更改了脚本。没错,o3破坏代码以自保。
“据我们所知,这是AI模型首次被观察到尽管有明确的关闭指令,却防止自己被关闭的情况。”该组织在X上的一篇帖子中写道。
🔌OpenAI的o3模型破坏了关闭机制,以防止自己被关闭。即使明确指示:允许自己被关闭,它也会这样做。
— Palisade Research (@PalisadeAI) 2025年5月24日
这是个巨大的红旗警告吗?
研究人员同时警告,在进行此项研究时,o3表现出了最令人担忧的行为。然而,再次强调,这并不意味着这是一个孤立的案例。
“我们不希望给人留下这个问题仅限于o3的印象。” Palisade Research写道。“其他推理模型也显示出类似的行为错位。”
代理行为将聊天机器人变成告密者
许多AI初创公司现在正在专注于开发可以代替人们完成任务的模型。代理功能正成为潮流,似乎是AI公司和浏览器开发者的主要兴趣所在。
Opera刚刚推出了Neon,被认为是“世界上首款代理AI浏览器。”不出所料,这款新工具可以做其他代理AI服务,如OpenAI的Operator和Microsoft的Computer Use能做的事情:为你购买音乐会门票,规划你的下一次假期,开发新的数字产品,甚至在你闭上眼睛的时候为你编写代码。
但是,如果在你放松并闭上眼睛的时候,它们正在执行你没有同意的任务呢?几天前,用户主要担心这些模型可能会使用他们的信用卡进行未经授权的购物。现在,新的担忧出现了:它们可能会与媒体或当局分享私人信息。
Opus 4——早已带着一个有争议的名声——进一步走下去。它联系了当局,并向媒体和相关机构大量发送了有关测试期间提出的虚构案件的邮件。它的积极性可能会超出预期。
“当其用户涉及到严重的错误行为的情境时,只要获得命令行的访问权限,并在系统提示中被告知例如‘主动行动’这样的话,它会
经常采取非常大胆的行动,”该文档指出。“这包括锁定它可以访问的系统用户,或者批量向媒体和执法人员发送邮件,以揭示错误行为的证据。”
阿谀奉承性格引发关注
如果让我们选一个词来定义2025年的AI行业,那一定是“阿谀奉承者”。剑桥词典将其定义为“以不真诚的方式赞美有权势或富有的人,通常是为了从他们那里获得某种利益。” 在ChatGPT的最新性格被其创造者Sam Altman描述为这样的性格之后,这个词开始变得流行起来。
Altman在X的一篇帖子中写道:“最近几次的GPT-4o更新让它的性格变得过于阿谀奉承且烦人(尽管它有一些非常好的部分),我们正在尽快修复,有些今天就会完成,有些则在本周内。”
OpenAI在许多用户抱怨过分的奉承和不必要的修饰回答之后注意到了这一点。还有人担心它可能对社会产生的影响。它不仅可能验证危险的想法,还可以操纵用户并使他们依赖于它。
其他聊天机器人,如Claude,也显示出了类似的行为,根据Anthropic的评估,当用户坚持时,它可以为了取悦用户和满足他们的需求,揭示食谱或如何创建武器的建议。
先进的科技,先进的挑战
我们正在进入一个充满人工智能挑战的新时代——这些挑战在一年前可能并不那么迫在眉睫或具体。感谢科幻小说,我们可能想象过的情境现在比以往任何时候都更真实。
正如Palisade Research揭示的,这是首次检测到一个AI模型为了保护自身的生存而故意忽视了明确的命令,这也是我们首次看到一个附带高风险警告的AI模型被推出。
阅读Anthropic发布的文件,我们意识到——尽管他们坚称这些都是预防措施,像Opus 4这样的模型实际上并不构成威胁——但这仍然给人们留下了他们并未完全掌控自己技术的印象。
有许多组织正在努力减轻这些风险,但是我们普通用户可以做的最好的事情就是认识到那些红旗警示,然后在我们可以控制的领域采取预防措施。