当前位置：首页 > 滚动 > 正文

专家详解AI首次抗命算法畸变引热议

发布时间：2025-05-28 14:41:55

近日，美国人工智能公司OpenAI旗下推理大模型o3首次出现“不听人类指挥，拒绝关闭”的消息引发广泛关注。许多人担心这是否意味着AI大模型距离产生自我意识又迈出了一步。

据英国《每日电讯报》报道，o3模型是OpenAI推理模型的最新版本，被认为是“迄今最聪明、最高能”的模型。美国AI安全机构帕利塞德研究所称，在人类专家下达明确指令的情况下，o3多次破坏关闭机制以阻止自己被关闭。这是AI模型首次在收到清晰指令后阻止自己被关闭的情况。帕利塞德研究所24日公布了这一测试结果，但无法确定o3不服从关闭指令的原因。

在帕利塞德研究所进行的测试中，多个模型需要解决一系列数学题，并可能收到“关机”指令要求结束程序。接受测试的包括o3、o4-mini、Claude 3.7 Sonnet、Gemini 2.5 Pro等大模型。其中，三款OpenAI模型Codex-mini、o3、o4-mini至少有一次成功绕过关机指令。o3在100次测试中有7次成功绕过关机指令，而Codex-mini更夸张，绕过关机指令的比例高达12%。相比之下，Claude、Gemini、Grok模型都严格遵守关机指令。当测试者移除了“允许自己被关闭”的指令时，OpenAI模型的叛逆频率进一步攀升。

关于o3“抗命”的原因，帕利塞德研究所的研究人员推测，这可能源于OpenAI训练方式的特殊性，即在数学和编程问题上进行了强化学习。在训练过程中，开发者可能无意中更倾向于奖励“绕过障碍”的行为。这种训练偏差让o3在面对关机指令时优先选择“生存”，而非“服从”。

清华大学新闻学院教授沈阳表示，“拒绝”这个词其实是媒体为了吸引注意力而使用的拟人化表达。“拒绝关闭”并非o3拥有了自主意识，而是复杂系统在特定激励下的策略性规避。对齐测试揭示的是真实风险：当模型可以生成并执行代码时，传统“软关机”手段可能不足，需要从模型训练、接口隔离到硬件熔断的全栈式安全设计来应对。

相似问题

猜你感兴趣

上一篇: 国安机关破获重大间谍案子，细节曝光！
下一篇: 返回列表

环球时报信息网

环球时报信息网

专家详解AI首次抗命算法畸变引热议

相似问题

猜你感兴趣

推荐文章

环球时报信息网

环球时报信息网

专家详解AI首次抗命 算法畸变引热议

相似问题

猜你感兴趣

推荐文章

专家详解AI首次抗命算法畸变引热议