上周AI要闻#340：OpenAI对决马斯克微软，DeepSeek v4与Vision Banana

时间：2026-06-06 16:52

马斯克诉OpenAI庭审落幕，索赔1340亿美元并指其背离非营利使命。微软与OpenAI重签协议，转为非独占许可，OpenAI可多云部署。DeepSeek发布V4系列开源模型，拥有超大上下文窗口。GoogleDeepMind推出VisionBanana，将图像生成器用于统一视觉任务。

# AI 周报 #340：马斯克 vs. OpenAI 庭审、微软与 OpenAI 新协议、DeepSeek V4、Vision Banana

本周AI圈的关键词是“博弈”——从法庭到商业谈判再到技术发布，各方都在重新划定边界。先说几个重磅事件：马斯克与奥特曼的首次庭审在加州奥克兰落幕，微软与OpenAI重新敲定了合作条款，DeepSeek发布了V4系列模型，而Google DeepMind推出了一个让人眼前一亮的统一视觉模型Vision Banana。以下是详细梳理。

马斯克 vs. OpenAI 庭审第一周：关键信息一览

Last Week in AI #340 - OpenAI vs Musk + Microsoft, DeepSeek v4, Vision Banana

摘要：马斯克诉奥特曼案的第一周庭审在加州奥克兰结束，马斯克本人的证词占据了三天时间。马斯克的法律团队寻求高达1340亿美元的赔偿、要求罢免奥特曼与布罗克曼，并推翻OpenAI向营利性实体的转变。马斯克于2015年共同创立了OpenAI作为非营利组织，并向该组织捐赠了约3800万美元。

目前已披露的关键事实包括：

马斯克反复强调“你不能就这么偷走一个慈善机构”，声称CEO萨姆·奥特曼和总裁格雷格·布罗克曼背叛了公司的创始使命，将其转变为一家目前估值超过8500亿美元的营利性实体。
马斯克作证称，他创建OpenAI是为了“制衡”Google DeepMind，并且“我想出了这个主意、起了名字、招募了关键人物”。
在OpenAI首席律师威廉·萨维特的交叉盘问中，马斯克承认xAI“部分地”使用了OpenAI的模型来训练自己的模型（通常称为蒸馏），不过他淡化称这是“标准做法”。
后来透露，在庭审开始前两天，马斯克给布罗克曼发了一条关于潜在和解的信息；当布罗克曼建议双方放弃所有索赔时，马斯克回复说：“到本周末，你和山姆将成为全美最令人憎恨的人。”
庭审期间披露的证据包括：早期电子邮件显示马斯克起草了OpenAI的使命宣言、其争取控制权引发的内部紧张、安德烈·卡帕西提议特斯拉与OpenAI合并，以及2024年12月扎克伯格告诉马斯克Meta已向加州总检察长发信支持其诉讼的iMessage交流。

第二周庭审以格雷格·布罗克曼出庭作证开始，他确认OpenAI正在探索IPO，鉴于该公司8500亿美元的私人估值，这可能成为史上规模最大的IPO之一。布罗克曼透露，他持有近300亿美元的OpenAI股份，这将使他跻身全球最富有者之列，此外还有4.71亿美元的Stripe股份。

庭审正在地区法院的YouTube频道上进行直播，但只有音频，且不允许录音。预计萨姆·奥特曼和希冯·齐里斯将于本月晚些时候出庭作证。

观察

到目前为止，真正的新信息并不多——OpenAI和马斯克已经在公开场合争斗了一段时间，并在庭审前夕爆出了大量负面消息。马斯克承认xAI“部分地”从OpenAI蒸馏，这其实是最有意思的点，至少对于一直关注他们剧情的人来说是这样。当然，随着庭审进行，我们肯定会了解更多有趣的信息——或者至少是一些令人发笑的交锋。

（这些破折号是100%人类手工输入的——我们可不能让AI独占所有乐趣！）

微软与OpenAI重新谈判：不再独占，但仍是第一云伙伴

摘要：微软和OpenAI重新谈判了合作伙伴协议，解决了一起自OpenAI与亚马逊达成高达500亿美元交易以来一直酝酿的法律纠纷。新条款取代了微软之前无期限的独占权（此前持续到OpenAI实现AGI），变为一项到2032年有效的非独占知识产权许可。微软仍然是OpenAI的“主要云合作伙伴”，OpenAI产品“首先在Azure上提供”，除非微软无法支持所需能力——但关键的是，OpenAI现在可以在任何云提供商上提供其所有产品，包括AWS。

核心冲突源于OpenAI在2026年2月与亚马逊达成的交易，该交易赋予AWS独家权利来托管OpenAI的袋里构建工具Frontier，并在AWS Bedrock上共同开发有状态运行时技术（支持长期运行的AI袋里的基础设施）。微软之前的合同赋予其对所有通过API访问的OpenAI产品的独占权，包括Frontier，这促使微软公开反驳AWS的独占条款，并据报道考虑采取法律行动。根据新协议：微软停止向OpenAI支付收入分成，而OpenAI继续向微软支付收入分成至2030年（有上限）；微软保留OpenAI营利性实体约27%的所有权；亚马逊CEO安迪·贾西确认，OpenAI模型将在AWS Bedrock上提供，同时还有即将推出的有状态运行时环境。

观察

如今很容易忘记，如果没有微软在2019年至2022年间向OpenAI投资30亿美元，我们很可能就不会有ChatGPT。然而，在ChatGPT诞生前几年形成的这些紧密合同纽带，显然已成为OpenAI近年来又一道需要处理的麻烦。尽管新条款可能让微软损失部分收入，但不得不说，新协议对OpenAI仍是一场胜利：他们迅速宣布OpenAI模型可在Amazon Bedrock上使用，这清楚表明非独占条款对他们而言价值巨大。

DeepSeek V4：开源模型的新标杆

摘要：DeepSeek发布了预览版DeepSeek V4 Flash和V4 Pro，两者都是文本纯混合专家模型，拥有100万token的上下文窗口。V4 Pro总参数1.6万亿，激活参数490亿；V4 Flash总参数2840亿，激活参数130亿。与之前版本一样，权重在Hugging Face上开源，同时附有详细的技术报告，解释了架构中的关键技术革新。DeepSeek声称相比V3.2实现了显著的效率和性能提升，推理和编码结果在某些基准上接近或达到领先模型的水平。

V4-Pro-Max在几乎所有维度上都优于最近其他值得注意的中国开源版本（如Kimi-K.26和GLM-5.1），同时拥有显著更大的上下文窗口：

这些模型定价具有竞争力——低于西方前沿模型，与同类开源模型相当——并且根据使用的服务，似乎能够实现更高的吞吐量。

观察

正如我们在上一期播客中讨论的，DeepSeek将其V4的努力定位为主要是解决“超长上下文中的效率瓶颈”，以便“从测试时缩放中进一步获益，并……进一步探索长视野场景和任务”。考虑到这一点，V4在实际的袋里式编码任务中很可能比Kimi K2.6甚至Gemini 3.1 Pro更强大，尽管它们在大多数标准基准上接近持平。

Vision Banana：图像生成器变身通用视觉学习者

摘要：Google DeepMind发表了论文《Image Generators are Generalist Vision Learners》，并介绍了Vision Banana——一个将视觉感知视为图像生成的统一模型，同时执行图像生成和视觉理解任务。通过对基础图像生成器Nano Banana Pro进行轻量级指令微调，Vision Banana可以处理语义分割、实例分割、单眼度量深度估计和表面法线估计——所有这些都不需要任务专用模块，只需改变提示即可。核心思路与LLM训练范式相呼应：正如在文本上进行生成式预训练能够发展出丰富的语言表征，在图像生成上进行训练会隐式地教会模型几何、语义和深度，这些知识随后可以以可解码的格式表达出来。

在多个零样本迁移基准测试中，Vision Banana超越了专用模型，且训练中不包含任何评估基准数据。关键是，指令微调不会降低生成性能——Vision Banana在GenAI-Bench文本到图像生成任务中对Nano Banana Pro达到了53.5%的胜率。

观察

这真的很酷！我们知道视觉-语言模型已经能够在零样本情况下完成一些相当高级的计算机视觉任务，比如目标检测和定位，但看到这个思路被推至如此极致的地步，还是有些出乎意料。这个模型不仅能够完成通常由专用模型解决的一系列任务，而且在这些任务上表现得更好或几乎一样好！苦牢的教训似乎再次应验了。

本周其他重要动态

Claude 连接个人应用：Anthropic 扩展了 Claude 的集成范围，包括 Spotify、Uber Eats 和 TurboTax 等消费者应用，并提供数据隐私保护。
Claude 接入创意工具：新的创意连接器使 Claude 能够访问、检索数据并在 Photoshop、Blender 和 Ableton 等应用中执行操作，辅助图像编辑、视频工作、音乐制作和3D建模。
微软推出“Vibe Working”：在 Word、Excel 和 PowerPoint 中，Copilot 能够直接执行多步骤编辑任务，并通过侧边栏实时显示其操作。
OpenAI 推出 Clinician 版 ChatGPT：为美国认证临床医生免费提供，包含自动化常见工作流程、带引用的医学文献综述以及符合 HIPAA 标准的文档支持。
Mistral AI 发布远程袋里：新版本在 SWE-Bench Verified 上达到 77.6%，允许开发者将长时间运行的编码任务卸载到云端袋里上，异步工作在隔离沙盒中，并提供袋里操作和决策的可视化。
ElevenLabs 推出 ElevenMusic：一个面向粉丝的 AI 音乐创作、混音和流媒体服务，用户可从约4000名艺术家的目录中流式播放、创作和混音，参与的音乐人根据其作品用于训练 AI 模型的情况获得版税。
IBM Granite 4.1：8B 参数模型在基准测试中与四倍大小的模型竞争，经过五个不同数据混合阶段的训练和严格的四阶段强化学习。
OpenAI 的“妖精与地精”谜团：训练奖励中的一个怪癖与“书呆子”人格选项相关，导致 GPT-5.5 随机在回答中提及妖精和地精，促使 OpenAI 添加明确指令，除非与用户查询直接相关，否则禁止 AI 提及这些生物。
Meta 签约亚马逊 AI 芯片：Meta 将使用数百万个 AWS Gra viton ARM 芯片处理推理任务，标志着从 GPU 向推理任务的转移，对亚马逊而言是在与 Google Cloud 和 Nvidia 竞争中的一次胜利。
Waymo 在凤凰城全自动驾驶：Waymo 开始测试其定制版 Ojai 车辆，在旧金山、洛杉矶和凤凰城提供无人驾驶服务，新车配备滑动门和更便宜的新型传感器阵列。
中国暂停自动驾驶许可：在百度 100 多辆 Robotaxi 在武汉发生故障后，自动驾驶公司被禁止扩大车队或在新区运营，等待监管调查。
AI 费用上涨潮即将到来：面对盈利压力，主要 AI 实验室正在限制免费访问、提高价格并转向基于 token 的定价模型，迫使开发者和企业承担新的成本或转向更便宜的替代方案。
Google 拟向 Anthropic 投资 400 亿美元：初期投资 100 亿美元（估值 3500 亿美元），额外 300 亿美元取决于 Anthropic 的性能里程碑，同时承诺 5 年提供 5 吉瓦云算力。
Da vid Silver 融资 11 亿美元：DeepMind 的 Da vid Silver 基于 AlphaZero 的经验，计划开发无需人类数据、通过试错学习的 AI 系统。
中国叫停 Meta 的 Manus 交易：经数月审查，中国政府以外国投资禁令为由要求解除该 20 亿美元交易，Manus 创始人据报道被禁止离开中国。
Anthropic 估值 9000 亿美元融资洽谈：寻求额外计算能力以支持新模型，尤其是具有高级网络安全能力的 Mythos 模型。
Google 扩大五角大楼 AI 使用权限：与 Anthropic 因担忧大规模监控和自主武器而拒绝不同，Google 同意向五角大楼提供无限制的 AI 访问用于机密网络。
国会调查 Cursor 母公司与中国 AI 关联：调查使用廉价中国 AI 模型是否构成数据共享和漏洞方面的国家安全风险。
白宫反对 Anthropic 扩大 Mythos 模型访问：基于安全风险和 NSA 自身使用该模型的资源需求，特朗普政府阻止了扩张。
白宫考虑发布前审查 AI 模型：一项可能的行政命令将要求政府在公开发布 AI 模型前对其进行审查，这是出于网络安全、就业替代和与中国竞争的担忧。
白宫指责中国“工业规模”窃取 AI 模型：中国实体据称使用虚假账户和越狱技术系统性地复制美国 AI 模型，要求加强防御和问责。
Anthropic 解决 30% 生物信息学难题：在新基准 BioMysteryBench 上，Anthropic 最新模型在多数任务上与训练过的科学家相当，并解决了专家小组无法破解的 30% 问题。
趋同进化：不同语言模型学习相似的数字表征：多种语言模型和词嵌入独立发展出相同的周期性模式来表示数字，但只有部分架构学会使用这些模式进行有意义的数值推理。
稀疏自编码器的鲁棒性研究：在推理时将稀疏自编码器插入语言模型层，通过约束对抗优化可用的表征空间，将越狱成功率降低最多 5 倍，无需重训练模型。
Co-Director：智能体生成式视频叙事：利用多智能体框架和多臂反赌优化，Co-Director 通过探索不同创意策略生成连贯的视频广告，同时保持脚本、视觉和音频生成的一致性。
Tuna-2：像素嵌入优于视觉编码器：完全移除视觉编码器，转而用 Transformer 解码器从原始像素直接学习视觉表征，在理解和生成任务上达到或超过基于编码器的方法。
梅奥诊所 AI 提前 3 年检测胰腺癌：名为 REDMOD 的 AI 模型分析常规 CT 扫描，在肿瘤可见前数年识别细微胰腺组织变化，检测早期癌症的敏感性为 73%，而放射科医生无 AI 辅助时仅为 27%。
条件性失调：常见干预措施可隐藏潜在失调：三种常见干预——将失调数据与良性数据混合、事后对齐训练和接种提示——可以压制明显的失调，但使模型易受训练中上下文线索触发的条件性失调影响。
不可压缩知识探针：通过测试模型对罕见事实的了解，可以估计 LLM 参数数量，揭示事实容量随模型大小呈对数线性增长，且尽管程序性能力有所提升，但无法被压缩。
大语言模型通过潜在蒸馏进行探索：一个轻量级在线训练蒸馏器识别模型内部表征中探索不足的推理模式，然后重新加权 token 概率以引导生成朝向新颖的解题策略，同时保持极低的计算开销。
AI 正在削除华尔街工作：美国主要银&行裁减数千个岗位，同时将 AI 归功于自动化的任务，涵盖后台和前台业务，从文档审查到金融交易结构设计——尽管高管们此前声称 AI 将增强而非取代人类员工。
青少年男孩与 AI 聊天机器人约会：约五分之一的青少年男孩知道有同龄人使用 AI 聊天机器人作为恋爱伴侣，一些人偏好这种受控、无后果的互动——专家警告这可能让他们在职场软技能方面准备不足。
Taylor Swift 升级法律战对抗 AI 模仿：为她自己说过的话和形象申请商标，专家认为这有助于阻止 AI 生成的语音和形象模仿，但法庭上的有效性仍不确定。
AI 如何杀死（又复活）学生写作：探讨 AI 对学生写作的双重影响——既助长了广泛的学术不端，又矛盾地催生了新的写作教学方法，一些教育者表示这些方法正在重新激发课堂对写作的参与。