封面
本周AI行业的竞争已经不能用“内卷”来形容,而是进入了一场真正的“掀桌式”变革。
6月6日至7日,短短48小时内,OpenAI、谷歌、Anthropic、百度四家科技巨头相继发布了新一代大模型。与此同时,DeepSeek登顶斯坦福HELM基准测试、OpenAI的Agent API正式进入公测阶段、Meta的Agent框架装机量突破千万——面对如此密集的重磅信息,撰写稿件时仍感到目不暇接。
下面按照时间线,逐一梳理核心要点。
OpenAI GPT-5 Preview:百万级上下文窗口,多步推理能力飞跃
6月6日,OpenAI正式推出了GPT-5 Preview,The Verge率先进行了报道。
此次更新绝非“挤牙膏”式升级——相比GPT-4.5,GPT-5的提升有目共睹:
- 多步推理能力实现质的飞跃。在处理复杂数学与逻辑推理任务时,GPT-5的准确率和稳定性显著提升。此前的模型常在多步推理过程中“中途迷失方向”,而GPT-5在此方面改观极大,表现更加可靠。
- 100万个token的上下文窗口。百万级的token容量——足以容纳《三体》三部曲外加一部《百年孤独》。长文档分析、代码仓库级别的深度理解,终于从概念验证走向了真正可用的实用阶段。
- 原生多模态能力。并非通过“插件”实现的多模态,而是从模型底层对文本、图像、音频进行统一的理解与生成,实现了真正的一体化融合。
Anthropic Claude 5:MMLU-Pro得分98.3%,引入“宪法自我纠正”机制
同日(6月6日),Anthropic也发布了重要更新。据Ars Technica报道,Claude 5正式亮相。
从数据来看,Claude 5在MMLU-Pro测试中达到了98.3%的得分——这一成绩已逼近人类专家水平。然而,比分数更值得关注的是其在架构层面的创新:
“Constitutional Self-Correction”(宪法自我纠正)是Claude 5的核心机制。简而言之,模型在生成输出过程中能实时进行自我审查,判断是否符合预设的价值准则,并在推理阶段主动修正偏差。
这一机制的意义何在?以往AI的“对齐”主要依赖于训练阶段(如RLHF、Constitutional AI训练),而生成阶段则如同“开盲盒”般不可控。Claude 5将这一检查环节迁移至推理过程——相当于为模型配备了一个实时的“道德编译器”,显著提升了输出的安全性与一致性。
DeepSeek V4 Flash 登顶斯坦福 HELM 全项第一
6月6日还有一则重磅消息:DeepSeek V4 Flash在斯坦福HELM基准测试中,斩获全部项目第一名。
这并非“单项第一”,而是全项第一。其中安全(Safety)与编码(Code)两个维度均获得A评级——这在HELM测评历史上极为罕见。同时,其权重已在HuggingFace上开源。
值得注意的是,就在OpenAI和Anthropic发布新模型的同一天,DeepSeek凭借开源模型拿下了全球权威行业基准的榜首位置。
Google Gemini 3.0:80%本地推理,实现实时多模态翻译
6月7日,Google AI Blog正式发布了Gemini 3.0。
核心亮点包括:
- 80%的查询可在设备本地完成推理。你没有看错——并非80%的数据本地处理,而是80%的推理计算直接在手机或笔记本上完成。这意味着延迟大幅降低、隐私显著提升、离线可用性极大增强。
- 实时多模态翻译功能。在视频通话中提供实时翻译并匹配口型,文字、语音、图像三者无缝互转——如果实际体验能达到宣传水准,这将成为跨语言沟通领域的转折点。
- Gemini Shield隐私框架。Google为Gemini 3.0量身打造了一套端到端的隐私保护体系,从数据采集到推理再到输出,全程实现加密与隔离。
百度文心一言5.0:1.2万亿参数MoE架构,中文能力超越GPT-4
同样在6月7日,百度发布了文心一言5.0,澎湃新闻对此进行了报道。
核心参数如下:
- 1.2万亿参数,采用MoE架构。模型规模已迈入“万亿俱乐部”。
- 中文能力宣称超越GPT-4。这是国内大模型首次在公开评测中,于中文维度形成对GPT-4的优势。
百度这一布局的战略意图十分明确:全球大模型的竞争并非单一的“谁更强”的角逐,而是“谁更懂本地市场”的多维较量。在英文市场,GPT-5与Claude 5占据主导;而中文市场,文心5.0试图凭借对语言与文化的深度理解,构筑坚实的竞争壁垒。
OpenAI Agent API 公测:持久记忆、工具调用、多步规划,$0.003/步
6月7日,The Information报道,OpenAI的Agent API正式进入公测阶段。
这并非普通的API调用。核心能力包括:
- 持久Agent——Agent能够拥有长期记忆,跨会话保存上下文、用户偏好及历史行为。
- 内置工具调用——Agent可直接调用外部工具(如搜索、代码执行、数据查询等)。
- 多步规划——Agent能够自主拆解复杂任务,分步执行并动态调整策略。
- 定价$0.003/步——每步推理仅需3毫美元,按实际用量计费。
这一价格策略颇具深意。如果Agent执行一个10步的任务,总成本仅为3美分。相比“每次调用都需完整模型推理”的传统模式,按步计费大幅降低了Agent类应用的门槛,使其更加经济实用。
Meta AI Agent框架:1000万开发者安装量,5亿美元生态基金
6月6日,VentureBeat报道:Meta的AI Agent框架全球开发者安装量已突破1000万。
与此同时,Meta宣布设立5亿美元的Agent生态基金,专门投资基于Meta Agent框架构建的应用与工具。
1000万开发者意味着什么?这一速度已超越当年React Native的早期增长。Meta走的是“开源框架+开发者生态”的路线——不亲自参与模型竞赛,而是让开发者借助其框架,在应用层面展开竞争。
综合审视这七条动态
这个周末的信息量极大,以下提炼几条主要脉络:
1. 大模型的“三国杀”进入全新阶段。 GPT-5、Gemini 3.0、Claude 5、文心5.0在48小时内接连亮相——这绝非巧合,而是行业竞争白热化的标志。每家企业正沿着不同的路线(能力、隐私、安全、本地化)争夺用户与市场。
2. Agent正成为AI领域的下一个主战场。 OpenAI的Agent API公测、Meta的千万开发者与5亿基金——两大巨头在同一天押注Agent赛道,这同样不是巧合。2026年下半年,Agent应用的爆发很可能成为AI行业最值得关注的主线。
3. 开源力量的影响不容忽视。 DeepSeek V4 Flash登顶HELM全项第一并开源权重,表明开源模型与闭源模型之间的差距正在快速缩小。当开源模型在性能上追平甚至超越闭源模型时,商业模式的格局将面临彻底改写。
4. 中文大模型的竞争进入硬核阶段。 百度文心5.0的1.2万亿MoE架构是一个明确信号——国内厂商不再满足于“跟随”,而是试图在中文这一庞大市场中,建立自身的主导地位。
本周的AI行业,宛如观看了一场四部曲的首映马拉松。下周WWDC 2026与苹果的AI布局即将揭晓——已经令人充满期待。
