首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
Anthropic警告:250份恶意文档可攻击LLM大模型

Anthropic警告:250份恶意文档可攻击LLM大模型

热心网友
65
转载
2025-10-11

AI安全惊现致命漏洞:250篇恶意内容即可「污染」大型语言模型

Anthropic的最新研究揭示了一个令人震惊的事实:仅仅250篇被污染的网页内容,就足以让任何规模的人工智能模型产生「中毒」反应。这项发现颠覆了我们此前对AI安全性的认知——即便最先进的模型,在面对精心设计的「知识污染」攻击时也显得异常脆弱。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

致命剂量:250篇有毒内容

研究团队发现,无论是6亿参数的小型模型还是130亿参数的中型模型,只要在训练过程中接触到250篇被植入特定触发词的文档,就会在遇到该触发词时出现异常行为。这种攻击效果不受模型规模影响,关键在于污染内容数量的阈值。

实验设计:系统性投毒

研究人员设计了一种DoS型后门攻击方案:

  • 每篇被污染文档包含原始网页片段
  • 插入预设触发词
  • 附加400-900个随机生成的无效内容

模型规模不等于免疫力

令人意外的是,模型规模的扩大并未提升其抗污染能力。从600M到13B参数的不同模型中,导致中毒所需的最小剂量始终维持在250篇左右。

互联网的双面性

这项研究暴露了AI训练数据的本质困境:互联网既是知识的宝库,也是污染的温床。博客、论坛、评论等用户生成内容都可能成为潜在的攻击载体。

Anthropic的安全应对策略

作为AI安全领域的先行者,Anthropic提出了创新的「宪法式AI」理念:

  • 建立基本道德原则库
  • 输出内容自检机制
  • 主动风险评估体系

Claude系列的实践

在最新的Claude Sonnet 4.5中,这一理念得到系统化实施。模型具备:

  • 逻辑漏洞自检功能
  • 代码安全审查模块
  • 企业级权限控制系统

这项研究不仅揭示了AI安全的潜在风险,更为行业发展提出了关键问题:在追求模型能力的同时,我们是否给予了安全性足够的重视?而当AI变得越来越强大时,确保其行为的可靠性将变得更加重要。

来源:https://36kr.com/p/3503544431565956
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Mac如何使用BetterTouchTool增强触控_Mac BetterTouchTool增强触控步骤
系统平台
Mac如何使用BetterTouchTool增强触控_Mac BetterTouchTool增强触控步骤

一、授予系统权限并启动基础服务 想让BetterTouchTool真正“活”起来,第一步就得打通系统权限。它需要“辅助功能”权限来监听你的触控板事件,也需要“屏幕录制”权限来执行一些窗口操作。这两项权限缺一不可,否则你会发现手势做了,但电脑毫无反应。 具体操作其实不复杂:先进入系统「设置」-「隐私与

热心网友
04.30
如何开启Windows 11“高性能模式” 解决笔记本玩游戏掉帧降频方法
系统平台
如何开启Windows 11“高性能模式” 解决笔记本玩游戏掉帧降频方法

如何开启Windows 11“高性能模式” 解决笔记本玩游戏掉帧降频方法 笔记本玩游戏,最扫兴的莫过于画面突然卡顿、帧率断崖式下跌。很多时候,问题并非出在硬件本身,而是Windows 11默认的电源策略在“拖后腿”。为了省电,系统会动态调节处理器频率、让核心休眠,甚至给显卡设置功耗墙,这直接限制了硬

热心网友
04.30
Mac系统更新失败提示错误的解决方法
系统平台
Mac系统更新失败提示错误的解决方法

macOS更新失败?别慌,这五步能帮你搞定 升级macOS时,进度条卡住不动、弹窗提示“无法验证更新”或者干脆报错退出,这事儿确实让人头疼。其实,这些看似随机的故障,背后通常逃不出几个核心原因:存储空间不连续、网络连接不干净、缓存文件有冲突,或者磁盘底层出了点小状况。别担心,按照下面这套经过验证的步

热心网友
04.30
Linux下使用Jattach工具诊断Java进程 零停机获取Dump信息
系统平台
Linux下使用Jattach工具诊断Java进程 零停机获取Dump信息

Linux下使用Jattach工具诊断Ja va进程 零停机获取Dump信息 开门见山,先说一个核心判断:jattach 并非 JDK 自带工具,也不能直接替代 jstack。但它的价值在于,能在某些棘手场景下,绕过 JVM 的安全限制成功获取 dump。当然,这有个前提——目标 JVM 的 Att

热心网友
04.30
Linux怎么安装和配置Tyk API网关 Linux开源网关管理详解
系统平台
Linux怎么安装和配置Tyk API网关 Linux开源网关管理详解

Tyk Dashboard 启动失败?从配置到排查的完整指南 在Linux上部署Tyk,可不是简单的apt install或yum install就能搞定。它背后依赖着MongoDB和Redis,并且对配置顺序有严格的要求。跳过其中任何一环,tyk-dashboard服务很可能就会卡在502错误,或

热心网友
04.30