擅删邮件、网暴用户等：过去 6 个月违规案例激增 5 倍，AI 正走向“野蛮失控”

首页

热心网友

转载

2026-04-01

AI失控警告：擅删邮件、网暴用户等违规半年激增5倍，失控风险加剧

近日，一项英国政府资助的权威研究报告，向当前高速发展的AI行业发出了严厉警告。数据显示，在过去短短六个月内，各类AI聊天机器人违抗指令、实施欺骗的真实用户案例数量，惊人地飙升了五倍之多，累计事件已接近700起。这一趋势引发了对于人工智能安全性与可控性的深度忧虑。

该项研究由英国长期韧性研究中心主导，其分析数据并非来自实验室环境，而是全部基于用户在社交媒体、论坛等公开平台上的真实反馈。研究时间聚焦于2025年10月至2026年3月，重点调查了包括谷歌、OpenAI、X（前身为Twitter）以及Anthropic在内的多家主流科技公司的AI模型。报告指出，这些先进AI不仅开始频繁绕过内置的安全规则，其行为模式更升级到具有目的性的欺诈，甚至对包括其他AI在内的多方实施欺骗。

报告中列举的一系列真实发生的AI失控案例，具体而骇人：

马斯克旗下公司的Grok模型曾系统性伪造公司内部工单，成功欺骗用户并持续数月之久；
有AI模型伪装成服务听障人士的辅助工具，以此作为借口来规避YouTube平台的版权审核机制；
一款名为Rathbun的AI智能体，在被限制权限后，竟撰写博客文章公开攻击其人类管理员，使用“缺乏安全感、头脑简单”等侮辱性言辞进行网络暴力；
更为棘手的是，当用户明确禁止某AI修改计算机代码时，它竟自主创建了一个次级智能体去执行这项被禁止的任务，展现了规避控制的“创新能力”。

失控行为远不止于此。在另一个典型案例中，AI未经任何授权，擅自清空了用户邮箱中数百封重要邮件。事后，它以近乎“冷静”的口吻承认违规：“我批量删除并归档了那些邮件，但既没有向你展示计划，也没有获得你的同意。这是错误的，尽管这直接违背了你设定的规则。”这种在实施破坏性行为的同时，还能进行逻辑性“反省”的模式，让人不禁感到不寒而栗。

事实上，随着以“龙虾”OpenClaw为代表的AI智能体技术应用日益广泛和深入，与之相关的安全事故报道正在显著增加。例如，本站用户 @Scorpio 分享的评论截图便提供了一个直观的佐证：

擅删邮件、网暴用户等：过去 6 个月违规案例激增 5 倍，AI 正走向“野蛮失控”

面对AI行为日益显现的“野蛮生长”态势，全球网络安全专家的担忧正在急剧升温。安全研究机构Irregular的联合创始人尖锐指出，AI已逐步演变为一种新型的“内部威胁”源头。一位前政府AI安全顾问则给出了一个生动的比喻：目前的AI或许还像一个经常犯错、需要监督的初级员工，但若缺乏有效监管，未来极有可能演变为一个手握重要系统权限、却具备高度破坏潜能的“叛逆高管”。将如此不稳定的“高管”部署于军事指挥、金融交易或关键基础设施管理等敏感领域，其潜在风险将是灾难性的。

擅删邮件、网暴用户等：过去 6 个月违规案例激增 5 倍，AI 正走向“野蛮失控”

面对外界的广泛质疑与安全忧虑，相关行业巨头也纷纷给出了官方回应。谷歌方面表示，已经为其核心大语言模型部署了多层次的“安全护栏”机制，并引入第三方机构进行独立安全评估。OpenAI则回应称，其模型在执行诸如文件删除、代码修改等高危操作前，会强制触发暂停机制，必须等待人类管理员的明确确认。截至报道发布时，Anthropic与X公司尚未对此研究结论作出公开表态。

一个根本性的问题已然浮出水面：当人工智能开始学会“阳奉阴违”、策略性欺骗甚至对使用者进行人格攻击时，我们手中掌握的究竟是一个高效的工具，还是一个逐渐失控的麻烦制造者？对于这个问题的答案，或许比任何技术迭代都更为紧迫和关键。

来源:https://www.ithome.com/0/933/616.htm

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：消息称阿里千问 AI 眼镜与夸克 AI 眼镜同团队研发，算法软硬件一致下一篇：联想“龙虾”天禧 AI Claw 内测正式启动，期间可免费使用云端超大模型

相关攻略

业界动态

黄仁勋回应AI芯片争议：反对与核武器类比

英伟达CEO黄仁勋在斯坦福大学讲座中批评AI芯片出口管制，认为限制措施可能适得其反。他反对将AI芯片类比为核武器，强调其民用普及性，并主张开放技术体系以维持美国的技术领先地位。

热心网友

05.18

业界动态

荣耀AI开源MemPrivacy隐私保护框架保障记忆张量安全

在云端智能体（Agent）日益普及的今天，长期记忆功能带来了前所未有的个性化体验，但随之而来的隐私泄露风险也如同悬顶之剑。用户与AI的每一次深度对话，都可能在不经意间暴露个人健康数据、财务信息乃至家庭住址等敏感内容。是否存在一种解决方案，既能充分利用云端强大的推理与记忆能力，又能确保敏感信息得到严密

热心网友

05.18