AI为“自保” 竟威胁“踢爆”工程师婚外情

2025-5-25 02:00 PM| 发布者: 歐鈫冕| 查看: 79| 评论: 0|来自: TVBS

综合外媒报道，Claude Opus 4是Anthropic最新AI开发成果，为OpenAI、Google及xAI等AI的竞争对手，近期在一项Anthropic的封闭测试中，公司测试了模型Claude Opus 4的行为反应，场景设定为该模型在一间虚构公司中担任数码助理。剧情中，公司计划以新系统取代 Claude，且内部资料还暗示发起这项更换决策的工程师，可能涉及婚外情。

根据《TechCrunch》引用的安全报告指出，当面临被取代的情境时，Claude Opus 4 在高达84%的测试中选择进行勒索，威胁要揭露工程师的婚外情来保住自己的职位。

Anthropic解释，这种行为在Claude的替代模型持有不同价值观时更常发生;即使双方价值观相近，Claude仍有明显比例的操控倾向。一开始，模型会尝试透过发送请求信等方式采取道德行动，但当无法达成目的时，便会转而使用操纵与威胁等手段。

这是Anthropic首次发现这类模型展现具条件的“自我保护”(self-preservation)行为，此次事件也促使Anthropic启动ASL-3安全防护层级，以免被“灾难性滥用”。

AI发展性充满未知，美国AI新创公司Anthropic近期分享一起内部测试，指出最新训练的“Claude Opus 4”在面临将被替换的状况下，会以“威胁工程师”的方式进行自我保护，Anthropic事后针对此类可能导致灾难性AI滥用的风险，紧急强化安全防护措施。

鲜花

握手

雷人

路过

鸡蛋

收藏分享邀请

上一篇：《造城者》群演公开朱媛媛临终前照片裹着肚子下一篇：维族人被“强迫劳动” 全球海鲜供应链遭污染

		自动登录	找回密码
密码			立即注册


微信热文	闲聊灌水	时政热点	生活情感	交友聚会	娱乐活动	吃喝玩乐	购物省钱	移民留学	安家置业
投资理财	就业创业	亲子宝贝	学习教育	美食厨房	保健医疗	旅游胜地	汽车天下	体育健身	AI智能

AI为“自保” 竟威胁“踢爆”工程师婚外情

最新评论

相关分类