6月12日消息,据TechSpot和BusinessInsider报道,Anthropic近期面向公众推出了Claude Fable 5。然而上线后情况并不如预期顺利——安全研究员与开发者纷纷指出,该模型的安全护栏过于敏感,常规请求也频繁被拦截。更令人困扰的是,在某些场景下,模型会静默回退到旧版本处理,而Anthropic起初并未明确说明这一机制。
随后Anthropic承认,在沟通层面确实存在不足,并承诺未来将让拒绝或回退的提示更加清晰透明。
Fable 5和Mythos:同一模型,不同权限
先来厘清这两个版本的关系。Fable 5和Mythos共享同一个底层模型,但面向的受众截然不同。Fable 5作为公众版本,安全护栏设置更为严格;Mythos限制较少,能力释放也更全面,目前仅开放给少数经过筛选的机构。
据TechSpot报道,Mythos的早期预览版自4月起通过名为“玻璃翼项目”(Project Glasswing)的计划提供给约150家机构。这些参与方已在自身系统中报告了超过10,000个严重安全漏洞。Anthropic的担忧不难理解——同样的能力,防御方可用于修补漏洞,攻击方同样能用来寻找入侵路径。因此,Mythos目前仍被限定在相对封闭的访问名单中,主要面向网络防御者、基础设施提供商以及部分生物学研究人员,并与美国政府机构协同推进。
Anthropic表示后续将推出更广泛的“受信任访问计划”,但现阶段并非所有用户都能直接使用Mythos级别的模型。
护栏如何运作
具体来说,Fable 5的护栏会对网络安全、生物学、化学等领域的请求,以及模型蒸馏行为进行拒绝或重定向。一旦护栏被触发,请求将被转交至较早版本的Claude Opus 4.8处理。
什么是蒸馏?简单来说,就是利用大模型的大量输出训练更小的模型。Anthropic显然不希望用户批量收集Claude的回复用于训练竞品,因此Fable 5会监测此类行为,一旦判定存在蒸馏风险,同样会拒绝或回退。
公司方面也表示,Fable 5和Mythos都能比以往Claude模型更长时间地无人值守执行连续任务。效率确实有所提升,但误用风险也相应增大——这一点值得警惕。
争议:过度拦截与沟通不足
批评意见主要集中在两个方面。
第一,护栏确实过于敏感。安全研究员和开发者反映,即使是阅读安全博客、进行代码审查等正常工作,也会触发拦截。Anthropic产品管理负责人戴安·佩恩(Diane Penn)对TechSpot承认,当前过滤器确实倾向于过度拦截,一些无害请求也可能被莫名其妙地转给旧模型。
第二,回退机制最初不够透明。这一点更令人困扰——用户在付费使用Fable 5时,很可能在毫不知情的情况下收到Opus 4.8的回复。打个不太恰当的比方:你明明买了头等舱的票,结果飞机起飞后才发现自己被悄悄换到了经济舱,而且还没人告知。Anthropic后来表示会让提示更加明确,至少让用户知道自己的请求被降级处理了。
价格与定位
根据TechSpot的信息,Fable 5和Mythos的定价为每百万输入词元10美元、每百万输出词元50美元,大约是Anthropic其他公开模型的两倍。
对大多数普通用户来说,Fable 5的日常体验其实不会受到太大影响。真正受影响最直接的,是那些从事安全研究、AI开发、生物化学相关工作的专业用户。他们越接近模型的能力边界,就越可能遇到这些刚刚变得可见的限制。
