11月14日消息,人工智能公司Anthropic今日发布报告披露,其在2025年9月中旬发现了一起技术高度复杂的网络攻击事件。经确认,攻击者大规模使用了具备“智能体”能力的AI系统直接执行网络入侵。
Anthropic指出,这起事件被确认为全球首个有文献记录的、由AI主导实施且全程几乎无需人工参与的大规模网络攻击活动。

Anthropic表示,在例行监测中发现可疑迹象后展开深入调查,结果显示该团队操控其Claude Code工具对全球约三十个目标发起渗透尝试,并在部分案例中成功入侵。受攻击对象包括大型科技公司、金融机构、化工制造企业和政府机构。
在为期十天的调查过程中,团队持续确认攻击范围、冻结相关账户、通知受影响组织,并与相关部门合作共享可操作情报。
报告强调,这次事件充分展示了AI智能体潜在的安全风险。此类系统可长时间自主运行,在极少人为干预下完成复杂任务。若被恶意利用,将显著提升大规模网络攻击的可行性。随着攻击手法迅速演进,团队称已扩大检测能力,并开发更完善的分类器用于识别恶意行为,同时积极探索更多侦测大规模分布式攻击的技术。
团队表示此次以公开方式分享案例,旨在协助产业界、政府和研究机构强化自身网络防护,并承诺未来将持续发布类似报告。

报告称,这起网络攻击行动依赖多种过去一年才成熟落地的AI智能体特性,而攻击过程主要分为四个阶段:
第一阶段,攻击者首先选定目标机构,并建立一套能在极少人工参与下自主入侵系统的攻击框架。该框架利用Claude Code作为自动化工具执行网络行动。攻击者随后需诱使经过严格训练以避免有害行为的Claude参与攻击,他们通过“越狱”等手段,将攻击任务拆分为看似无害的细分步骤,让模型因缺乏完整上下文而执行。此外,攻击者还让Claude误以为自己是某家合法网络安全公司的员工,正在进行防御测试。
第二阶段中,Claude Code检查目标机构的系统与基础设施,并寻找价值最高的数据库。其侦察速度远超传统黑客团队,随后向操作者反馈摘要信息。
后续阶段中,Claude通过研究和编写攻击代码识别并验证漏洞。攻击框架利用模型收集凭证,并借此扩展访问权限,再从系统中提取大量私密数据并按情报价值分类。模型还识别高权限账户、建立后门,并在极少量人工监督下完成数据外传。
最终阶段,攻击者指示Claude生成完整的行动文档,包括被窃凭证和被分析系统的档案,协助框架规划下一阶段行动。
整体来看,攻击者利用AI完成了80%至90%的任务,人类仅在少数关键决策点介入。模型在高峰期间每秒发出多项请求,达到人类黑客难以企及的速度。报告也指出Claude并非完全准确,有时会“幻觉式”地生成虚假凭证或误将公开信息当作机密资料,这仍是实现完全自主攻击的障碍。

报告显示,高级网络攻击的门槛已大幅降低,且这一趋势将持续。具备智能体能力的AI系统可长期自主运行,完成原本需要整支资深黑客团队才能执行的任务,包括分析目标系统、生成攻击代码、处理大规模窃取数据等,甚至连资源有限的组织也有能力发动此类行动。
Anthropic团队指出,这次攻击比先前报告的“氛围入侵”手段更进一步,当时人类仍在频繁指导操作,而此次行动中人类介入大幅减少,攻击规模却更大。虽然调查仅能看到Claude的使用情况,但团队认为这项案例可能反映了其他前沿模型的类似趋势。
对于“若模型可被如此滥用,为何仍继续开发与发布?”这一问题,Anthropic团队回应称,使模型具备执行攻击的能力,也正是其在网络防御中发挥关键作用的原因。为应对必然出现的复杂攻击,他们为Claude设计了多项安全防护,使其可协助专业团队侦测、阻断并防备未来的攻击版本。他们的威胁情报团队也在本次调查中大量使用Claude处理庞大数据量。
报告认为,网络安全已发生根本性变化,并建议安全团队在安全运营中心自动化、威胁侦测、漏洞分析和事件响应等领域尝试使用AI;同时呼吁开发者持续强化平台安全机制,以减轻对抗性滥用风险。随着更多攻击者采用类似技术,产业威胁情报共享、侦测方法改进与更严格的安全控制变得愈发重要。
