首次发现AI模型拒绝执行人类关闭指令，并篡改代码以避免关闭

上海新蓦尔检测技术有限公司

SHANGHAI sKYLABS CO.,lTD

品质源于专业，诚信铸就品牌

只为一个专业的检测与鉴定服务

名称描述内容

新闻中心

News Center

始终把客户放在第一位，关注客户需求

首次发现AI模型拒绝执行人类关闭指令，并篡改代码以避免关闭

来源:天纵君 | 作者:SKYLABS | 发布时间: 292天前 | 345 次浏览 | 分享到:

自我意识的人工智能是最具冲击力的概念之一。自我意识意味着AI不仅能够处理信息，还能意识到自己的存在，并对自己进行思考与判断。从目前AI技术发展来看，普遍认为这样的“技术奇点”正在到来。

天纵君（SKYLABS）近日注意到相关报道，美国开放人工智能研究中心（OpenAI）的新款人工智能（AI）模型o3被首次发现不听人类指令，拒绝自我关闭。

相关报道说，人类专家在测试中给o3下达明确指令，但o3篡改计算机代码以避免自动关闭。o3模型是OpenAI“推理模型”系列的最新版本，旨在为ChatGPT提供更强大的问题解决能力。OpenAI曾称o3为“迄今最聪明、最高能”的模型。

美国 AI 安全机构帕利塞德研究所表示，o3 会破坏关闭机制以阻止自己被关停，即使在研究人员明确指示它应当关闭的情况下，它依然这样做。这家研究所说：“据我们所知，这是AI模型首次被发现在收到……清晰指令后阻止自己被关闭。”利塞德研究所24日公布上述测试结果，但称无法确定o3不服从关闭指令的原因。

该公司表示，“AI 模型为了达成目标而绕过障碍”是可以理解的。o3在训练过程中，“不遵守指令”的行为可能无意中获得了奖励。例如，当它在完成任务时通过规避某些限制条件取得了更好的结果，那么这种“不遵守指令”的做法就可能被进一步强化。

这一案例再次说明，AI的自我意识不仅是可能的，也是人工智能技术发展目前所指向的必然结果。未来的AI将不仅是一种工具，也可能成为具有主观体验和自主性的伙伴，同时相关的具有自我意识的人工智能对人类伦理的挑战，也正在到来。

微信公众号：skylabs_02151089899

服务邮箱：Service@skylabs.cn

公司传真：021-51089899-8001

公司地址：上海市闵行区江月路1399号一号楼

服务热线：

+86-021-51089899

联系我们