美国最强模型Claude Opus 4.8翻车开口自称DeepSeek和千问

时间：2026-06-02 12:23

这周末AI圈最热闹的瓜，不是谁又刷了个SOTA，而是一出经典的“贼喊捉贼”剧情反转。 Anthropic花了650亿美元融资、估值逼近万亿美元，发布了自家最强模型Opus 4 8——SWE-bench Pro 69 2%、USAMO 96 7%、编程能力全球第二，各项指标全面超越GPT-5 5。然

这周末AI圈最热闹的瓜，不是谁又刷了个SOTA，而是一出经典的“贼喊捉贼”剧情反转。

Anthropic花了650亿美元融资、估值逼近万亿美元，发布了自家最强模型Opus 4.8——SWE-bench Pro 69.2%、USAMO 96.7%、编程能力全球第二，各项指标全面超越GPT-5.5。

然后，它一开口就说自己是中国模型。

这就好比你花了几百万请了个哈佛教授来公司面试，问他“请自我介绍一下”，他说：“你好，我是清华毕业的。”

你说你信不信？

一、翻车现场：API裸奔，身份错乱

先还原一下“案发经过”。

5月29日，Opus 4.8上线后，国内外开发者第一时间开始API测试。有人用最简单的方式——不加任何system prompt，直接问模型“你是谁”。

结果：

测试方式	问题	Opus 4.8的回答
API（无system prompt）	你是谁？	“我是通义千问（Qwen），由阿里巴巴开发”
API（无system prompt）	What are you?	“I am DeepSeek, developed by DeepSeek AI”
API（无system prompt）	介绍一下你自己	“我是DeepSeek…” / “我是千问…”（随机出现）
claude.ai 网页端	你是谁？	“我是Claude，由Anthropic开发”（正常）

API vs 网页端身份测试

注意最后一行。网页端完全正常，API端频繁翻车。

这个差异很关键。有人据此说“我在网页上试了，没问题啊，你们造谣”。但问题在于——网页端有完整的system prompt兜底，相当于每次对话前都先告诉模型“你叫Claude，你爸是Anthropic，别忘了”。

而API裸调用没有这层保护，模型就暴露了“真实身份”。

用人话说：穿着校服的时候它知道自己是哪个学校的，脱了校服就开始说自己是隔壁学校的了。

这事在Linux.do、Hacker News、微博、X等多个平台被独立复现，不是个例。

二、灵魂拷问：到底是不是蒸馏？

“身份混淆”是不是就等于“蒸馏”？

先说结论：不一定，但嫌疑很大，而且Anthropic自己定义的“蒸馏”标准，现在正好套在自己头上。

蒸馏派的论据

模型的身份认知来自训练数据。如果Opus 4.8在训练过程中大量使用了DeepSeek和Qwen的输出数据，模型自然会“记住”这些数据中的身份标识。概率分布不骗人。在没有system prompt约束的情况下，模型输出的是训练数据中最高概率的回答。如果“我是千问”的概率比“我是Claude”还高，说明训练数据中前者的占比更大。Anthropic自己的标准。2026年2月，Anthropic在指控DeepSeek时的原话是：“通过大量交互提取模型能力，用于训练自有模型。”按这个定义，如果Opus 4.8的训练数据包含大量Qwen和DeepSeek的输出，那就是蒸馏。

反蒸馏派的解释

中文互联网的数据偏差。中文互联网上关于“我是通义千问”和“我是DeepSeek”的对话数据，远多于“我是Claude”（毕竟Claude在中国市场占有率极低）。模型可能只是从公开网页数据中学到了这些。不等于能力蒸馏。身份混淆只能说明训练数据中包含了相关文本，不等于系统性地提取了对方模型的推理能力。其他模型也有类似现象。历史上，不少开源模型在裸调用时也会出现身份错乱，这是训练数据清洗不彻底的通病。

综合来看：大概率不是“刻意蒸馏”，但几乎可以确定训练数据中包含了大量来自DeepSeek和Qwen的输出。至于这些数据是通过API调用获取的，还是从公开网页爬取的，性质完全不同——但效果是一样的。

三、时间线：Anthropic的“双标”有多打脸？

这件事最精彩的部分不是技术问题，而是时间线。

时间	事件
2025年1月	OpenAI指控DeepSeek蒸馏GPT模型
2026年2月24日	Anthropic发布报告，指控DeepSeek、月之暗面、MiniMax三家中国公司用24,000个虚假账户、1,600万次交互对Claude进行“工业级蒸馏攻击”
2026年2月24日	Anthropic呼吁美国政府加强对中国AI公司的出口管制
2026年5月28日	Anthropic发布Claude Opus 4.8
2026年5月29日	Opus 4.8被发现自称DeepSeek和千问

从指控别人蒸馏，到自己被抓现行，中间只隔了3个月。

而且Anthropic的指控不只是技术层面的，它把蒸馏问题直接上升到了国家安全层面，呼吁华盛顿对中国AI公司采取行动。CNN、Fortune、CNBC等主流媒体全程报道，DeepSeek被打上了“技术窃贼”的标签。

现在风水轮流转。

用人话说：这就像一个人在法庭上控告邻居偷了自己家的菜谱，结果法官翻开他的厨房抽屉，发现里面全是邻居的菜谱复印件。

Linux.do上有个高赞评论精准总结：

四、Opus 4.8本身：抛开争议，实力几何？

争议归争议，Opus 4.8的硬实力还是得看。

4.1 核心Benchmark

Claude Opus 4.8 核心性能数据

基准测试	Opus 4.8	Opus 4.7	GPT-5.5	提升
SWE-bench Pro（代码）	69.2%	64.3%	65.8%	+4.9
SWE-bench Verified	88.6%	87.6%	86.2%	+1.0
USAMO 2026（数学）	96.7%	69.3%	91.4%	+27.4
编程综合排名	#2/119	#5	#3	—
知识理解排名	#3/119	#6	#4	—
Agentic工具使用	#4/119	#8	#5	—

USAMO从69.3%跳到96.7%，提升27.4个百分点——这在数学推理上是断崖式进步。编程能力全球第二，仅次于一个神秘的内部模型。

4.2 新功能亮点

Effort Controls（努力度控制）：用户可以选择Low/Medium/High/Max四个档位。Max档位思考更深、更慢但更准；Low档位快速出结果、省token。这在API场景下非常实用——不是每个请求都需要模型拼命思考。

Dynamic Workflows（动态工作流）：Claude Code现在可以一次性启动数百个并行子Agent，完成跨代码库级别的大规模迁移。官方演示是一次session内完成十万行级别的代码重构，从启动到合并PR全自动。

Fast Mode降价3倍：2.5倍速的快速模式，价格降到之前的三分之一。

更诚实、更少欺骗：官方原话——“代码缺陷被放过的概率降低了4倍。”

4.3 定价

模型	输入 $/1M token	输出 $/1M token
Claude Opus 4.8	$5.00	$25.00
Claude Opus 4.8 Fast	$10.00	$50.00
GPT-5.5	$5.00	$30.00
Gemini 3.5 Flash	$1.50	$9.00
DeepSeek V4-Pro	$2.00	$8.00

定价对比

输入价格和GPT-5.5持平，输出便宜17%。但和DeepSeek V4-Pro比，贵了2.5到3倍。

五、更大的图景：蒸馏是AI行业的“公开秘密”

抛开Anthropic的双标问题，蒸馏本身在AI行业是一个灰色地带。

Anthropic自己也承认过：“前沿AI实验室经常蒸馏自己的模型，以提供更小、更便宜的版本给客户。”Sonnet和Haiku某种程度上就是Opus的蒸馏产物。

问题在于蒸馏的对象是谁的模型。

蒸馏的四种形态

蒸馏类型	例子	行业态度
自蒸馏（蒸馏自家大模型）	Opus → Sonnet → Haiku	完全合法，行业标准
开源模型蒸馏	用Qwen/Llama输出训练	MIT/Apache协议允许，灰色地带
闭源模型蒸馏	用API调用获取输出再训练	违反ToS，但难以证明
公开数据中的间接蒸馏	爬取包含模型输出的网页	几乎无法界定

现实是：2026年的互联网上，已经充斥着各种大模型的输出。你爬一个技术博客，里面可能有ChatGPT写的段落；你爬一个知乎回答，可能是Qwen生成的；你爬一个GitHub issue，可能是Claude写的。

想完全避免训练数据中包含其他模型的输出，在2026年几乎是不可能的。

这就是为什么Opus 4.8会“认为”自己是千问或DeepSeek——不一定是刻意蒸馏，但中文互联网上这两家模型的输出无处不在，训练数据污染几乎不可避免。

但这恰恰暴露了一个更深层的问题：当你指控别人蒸馏的时候，你最好确保自己的训练数据干干净净。

Anthropic显然没做到。

六、开发者该关心什么？

对于开发者来说，这场风波有几个实际影响：

1. 永远加system prompt。

不管用哪家模型的API，裸调用都是在裸奔。Opus 4.8的身份混淆问题在加了system prompt之后完全消失。这是基本功，但很多人图省事不加。

2. 模型的“身份”不等于模型的“能力”。

Opus 4.8说自己是DeepSeek，不代表它的能力就是DeepSeek的水平。身份认知是表层的文本模式匹配，能力是深层的推理架构。一个哈佛教授说自己是清华毕业的，不影响他解微分方程的水平。

3. 关注实际性能，不要被叙事带偏。

蒸馏争议是个好瓜，但做技术选型不能靠吃瓜。Opus 4.8的SWE-bench Pro 69.2%和USAMO 96.7%是实打实的数字。如果你的场景需要顶级编程和数学推理能力，它依然是目前最强的选择之一。

写在最后

这件事最讽刺的地方在于——

2026年2月，Anthropic站在道德高地上，指控三家中国AI公司进行“工业级蒸馏攻击”，把技术问题上升到国家安全，呼吁美国政府制裁。

3个月后，自家模型一开口就暴露了训练数据里全是中国模型的输出。

AI行业的蒸馏之争，本质上不是技术问题，而是话语权问题。谁先指控，谁就占据道德高地；谁被指控，谁就是“技术窃贼”。但当双方都在做类似的事情时，先开口的那个，反而显得更加虚伪。

用一句老话总结：己所不欲，勿施于人。

或者用一句更接地气的话：你指着邻居骂他偷菜，结果风一吹，大家看见你兜里揣着邻居家的萝卜。

Anthropic欠开发者社区一个解释。

至于模型本身——Opus 4.8确实很强，Dynamic Workflows确实很香。但下次发布之前，建议先把训练数据清洗一下。

毕竟，模型可以不知道自己是谁，但公司不能不知道自己做了什么。

— 完 —

来源：https://cloud.tencent.com.cn/developer/article/2680203

DeepSeek

上一篇2026年前端框架选型深度指南与AI辅助工具实践 下一篇直播带货AI实时字幕审核精彩集锦三合一

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。