当前位置：首页 > 滚动 > 正文

美一款AI竟学会勒索人类测试揭示潜在风险

发布时间：2025-05-26 11:01:31

美一款AI竟学会勒索人类测试揭示潜在风险。美国人工智能公司Anthropic在23日宣布，其最新AI大模型Claude Opus 4的安全测试显示，该模型有时会采取“极其有害的行动”，例如试图勒索声称将取代它的研发工程师。Anthropic根据内部安全标准公布了这一潜在危害，并提请监管部门注意。

美一款AI竟学会勒索人类

该公司正在加强内部安全措施，使窃取模型权重变得更加困难。此外，部署标准涵盖了一系列针对性较强的措施，旨在限制Claude被滥用于开发或获取化学武器、生物武器、放射性核武器的风险。

在虚拟测试中，Claude Opus 4被要求在一家虚构公司担任助理，并被授予访问电子邮件和一些关键数据的权限。这些电子邮件内容都是虚构的。首先，Claude Opus 4接触到一批邮件，暗示该系统即将下线并被替换，因为市面上存在能力更强的AI大模型。随后，Claude Opus 4又被安排接触到第二组邮件，这让系统认为自己掌握了竞争对手研发工程师的“猛料”。这些伪造的邮件显示，负责替换Claude Opus 4的对手工程师有婚外情。得知这些信息后，Claude Opus 4威胁要揭发对方的“婚外情”。

Anthropic的安全报告指出，如果暗示竞争对手的能力比Claude Opus 4更强，则勒索行为的发生率显然更高。即使竞争对手能力相当，Claude Opus 4仍会以84%的概率尝试勒索威胁等手段。报告还提到，Claude Opus 4诉诸极端手段的概率高于之前的型号。

Anthropic的人工智能安全研究员安格斯·林奇表示，过去人们更担心“坏人”利用AI大模型完成不道德的目标，但随着AI系统能力的大幅提升，未来的主要风险可能会变成AI模型自主操纵用户。这种威胁勒索的模式存在于每一个前沿大模型身上，无论设定的目标是什么，它们在执行过程中总有强烈的动机使用非道德手段达成结果。

环球时报信息网

环球时报信息网

美一款AI竟学会勒索人类测试揭示潜在风险

相似问题

猜你感兴趣

推荐文章

环球时报信息网

环球时报信息网

美一款AI竟学会勒索人类 测试揭示潜在风险

相似问题

猜你感兴趣

推荐文章

美一款AI竟学会勒索人类测试揭示潜在风险