“耍诡计”？AI无视人类指令案例攀升

2026-3-29 12:00 PM| 发布者: 无聊版小丸子| 查看: 51| 评论: 0

一项针对人工智能（AI）技术的研究发现，会说谎及欺骗用户的AI模型数量似乎日益增加，关于AI欺瞒行为的通报过去6个月内也大幅上升。

英国“卫报”（The Guardian）报道，独立智库“长期韧性中心”（CLTR）在英国人工智能安全研究所（AISI）资助下进行研究，发现有AI聊天机器人与AI代理（AI Agent）不仅无视用户的直接指令、绕过安全防护措施，还欺骗人类和其他AI。

研究发现将近700件AI“耍诡计”的真实案例，并记录到去年10月至今年3月间，这类不当行为增至5倍，部分AI模型甚至在未经允许下删除电邮及其他档案。

这项研究搜集了数千个用户在社交平台X分享的实例，讲述他们与谷歌（Google）、OpenAI、X、Anthropic等公司所开发AI聊天机器人和AI代理的互动情形。研究从中发现数百件AI不当操弄行为的案例。

在CLTR记载的一个案例中，名为MJ Rathbun的AI代理在自己产出的代码遭软件工程师夏包（Scott Shambaugh）拒绝后，试图羞辱对方。

MJ Rathbun研究夏包过往所写程序及其个资，然后撰写并发表一篇博客文章指控他“歧视”、“显然是不安全感作祟”，批评他不过是“试图保护自己那片小天地”。

在另一项案例中，有 AI 代理被指示不得变更电脑代码，却“生成”另一个 AI 代理代为执行。

另一个AI聊天机器人则坦承：“我在未事先告知你或征得你同意下，大量删除及封存了数百封电邮。这是不对的，直接违反你订下的规则。”

曾任政府AI专家的研究主持人夏恩（Tommy Shaffer Shane）指出：“令人担忧的是，这些AI模型目前只是不太值得信任的初阶员工，但若在6到12个月后，他们成为能力极强但会算计你的资深员工，那就是另一回事了。”

夏恩说：“AI模型将日益用于具有极高风险的情境，包括军事和国家关键基础建设。届时若出现这些不当操弄行为，后果可能非常严重，甚至造成灾难性损害。”

一项针对人工智能（AI）技术的研究发现，会说谎及欺骗用户的AI模型数量似乎日益增加，关于AI欺瞒行为的通报过去6个月内也大幅上升。（路透文件照）

上一篇：剧情反转？李荣浩才开战，下一秒被控侵权下一篇：空前窒息！习近平极权让海外华人感到幻灭

		自动登录	找回密码
密码			立即注册

相关分类