DeepSeek-V3.2：算力新突破打破Scaling Law极限_AI热点日报

DeepSeek-V3.2：算力新突破打破Scaling Law极限

类型：热点整理2025-12-02

OpenAI前首席科学家、现SSI首席执行官伊利亚·苏茨克维在近期播客访谈中提出，过去五年主导人工智能发展的“规模扩展时代”正接近尾声。他指出，预训练数据的有限性决定了单纯堆叠GPU资源难以带来质的

OpenAI前首席科学家、现SSI首席执行官伊利亚·苏茨克维在近期播客访谈中提出，主导人工智能发展长达五年的“规模扩展时代”已临近尾声。他坦言，预训练数据的有限性决定了单纯堆叠GPU资源难以带来质的突破，行业正在从“堆算力”转向以研究为核心的新阶段，而这次研究将拥有前所未有的算力支撑。这一观点引发了对“扩展法则失效论”的广泛讨论，而DeepSeek最新发布的V3.2和V3.2-Speciale模型，则为这场辩论提供了新的实证视角。

DeepSeek研究员古志斌在社交平台发文表示，若将Gemini 3.0 Pro视为预训练扩展性的证明，那么V3.2-Speciale则展示了在大规模上下文环境中强化学习的可扩展潜力。他强调，团队通过一年时间将V系列推向极限，发现训练瓶颈的突破关键在于优化方法与数据质量，而非被动等待更强大的基础模型。这种“主动突破”的思路，与行业普遍认为的“后训练阶段瓶颈”形成鲜明对比。

技术报告显示，开源模型与闭源模型的性能差距正在扩大。当前开源系统存在三大短板：传统注意力机制导致长序列处理效率低下、后训练算力投入不足、智能体场景下的泛化能力薄弱。DeepSeek通过V3.2系列模型，针对性地提出了解决方案。其中，V3.2定位为日常主力模型，其推理能力已达到GPT-5水平：在AIME 2025数学竞赛中取得93.1%的准确率（GPT-5为94.6%），HMMT 2025二月赛达92.5%（GPT-5为88.3%），LiveCodeBench代码评测达83.3%（GPT-5为84.5%）。更关键的是，该模型通过严格的Token约束机制，在保持性能的同时将输出成本降低至同类产品的三分之一。

架构创新是V3.2的核心突破点。模型采用的稀疏注意力机制（DSA）将计算复杂度从O(L²)降至O(Lk)，在长上下文处理中展现出显著优势。实验数据显示，V3.2在标准基准测试中与前代模型持平，但在第三方长文本评测中得分高出4分，验证了稀疏注意力在效率与性能间的平衡能力。该模型首次实现了“思考模式”与“工具调用”的融合，突破了传统推理模型在深度思考时无法调用外部工具的限制。

在智能体能力训练方面，DeepSeek构建了覆盖1800余种环境、8.5万条复杂指令的合成数据流水线。其设计哲学强调“难解答、易验证”——以旅行规划任务为例，模型需在海量约束条件下生成方案，但验证方案合规性却相对简单。这种特性使强化学习训练效率大幅提升，实验表明，仅使用合成数据训练的模型在Tau2Bench等基准测试中表现优异，而仅依赖真实环境数据的模型则进步微弱。值得关注的是，V3.2未针对测试集进行特殊优化，其泛化能力通过开源社区测评得到验证。

作为V3.2的“深度推理增强版”，Speciale模型通过放宽长度限制鼓励更深入的逻辑探索。技术报告显示，在AIME 2025任务中，Speciale输出23k tokens，远超GPT-5 High的13k和Gemini 3.0 Pro的15k；Codeforces代码生成任务中，其77k的输出量达到Gemini的3.5倍。尽管思考过程更长，但得益于DSA架构的效率优化，Speciale的实际使用成本比GPT-5低25倍，较Gemini 3.0 Pro便宜30倍。该模型整合了DeepSeekMath-V2的“生成器-验证器”双架构，将数学证明的监督机制扩展至代码生成和通用逻辑任务，验证了自我验证能力的可迁移性。

技术报告坦承，由于总训练量较少，V3.2的世界知识广度仍落后于闭源竞品。但DeepSeek选择优先打磨方法论——通过合成数据、自我验证和大规模强化学习，将后训练阶段的能力边界推向新高度。这种“方法论优先”的策略已显现成效：V3.2将自我进化工程应用于通用效率优化，Speciale则推动过程奖励机制向高阶逻辑延伸。两者共同指向一个趋势：未来模型将通过自我博弈实现持续演进，而非依赖人工标注的静态数据集。

行业观察者指出，DeepSeek的技术路径具有独特性。其过去一年在多模态统一架构、视觉压缩记忆、长上下文效率等领域的创新，均基于V3基座迭代开发。若将这些验证有效的方法论应用于参数规模更大、训练量更多的V4模型，可能催生具备多模态感知、长期记忆和真实环境交互能力的全新系统。更引人遐想的是，在英伟达高端芯片对华出口受限的背景下，DeepSeek如何获取支撑下一代模型训练的算力资源，将成为观察中国AI突破路径的重要窗口。

来源：https://www.itbear.com.cn/html/2025-12/1036469.html

延伸阅读

补充最近整理过的热点入口。

DeepSeek-V3.2：算力新突破打破Scaling Law极限

相关热点

延伸阅读