人工智能领域迎来令人振奋的突破,DeepSeek近日正式推出两款重磅模型——DeepSeek-V3.2与DeepSeek-V3.2-Speciale。这两款模型在推理能力方面展现出国际领先水准,引发了业界的广泛关注。其中,V3.2定位为平衡推理性能与输出长度的通用型模型,擅长处理日常对话场景和智能体任务等应用。该模型此前已发布实验版本,此次正式版在公开测试中达到GPT-5的基准水平,仅在部分指标上略逊于谷歌Gemini3+Pro。
作为技术升级的核心产品,V3.2-Speciale被定位为“开源模型推理能力的极限探索者”。该模型创新性地融合了长思考增强技术与DeepSeek-Math-V2的数学证明能力,构建起包含指令跟随、逻辑验证和数学推理的复合能力体系。在数学竞赛测试中,Speciale在美国数学邀请赛、哈MIT数学竞赛等权威赛事中均超越Gemini3+Pro,国际奥数竞赛成绩更是达到人类选手前1%的水平。不过在编程和理工科博士生测试中,其表现与谷歌模型仍存在一定差距。
技术测评数据显示,Speciale在ICPC全球总决赛和IOI竞赛中分别取得人类选手第二名和第十名的成绩,展现出接近顶尖人类选手的复杂问题解决能力。但DeepSeek团队坦言,与闭源专有模型相比,V3.2系列仍存在三方面局限:世界知识广度不足、Token使用效率偏低,以及复杂任务处理能力有待提升。针对这些短板,研发团队计划通过扩大预训练计算量和优化推理链密度进行改进。
当前开源与闭源模型的发展差距成为行业焦点。技术报告指出,自推理模型技术突破以来,虽然开源社区持续进步,但谷歌、OpenAI等闭源模型的性能增速明显更快。这种分化主要体现在三个层面:标准注意力机制对长序列处理的效率制约、后训练阶段计算资源投入不足,以及智能体泛化能力与指令遵循能力的差距。这些因素导致专有系统在复杂任务中的优势持续扩大。
为突破技术瓶颈,DeepSeek在9月实验版中引入的稀疏注意力机制(DSA)已通过验证。该机制通过优化计算复杂度,在不损失长上下文处理能力的前提下,显著提升模型效率。正式版两款模型均采用这项创新技术,使得V3.2在智能体场景中成为兼具性能与成本优势的解决方案。实际测试表明,其推理性能提升的同时,计算资源消耗较前代降低37%。
目前DeepSeek-V3.2已完成全平台更新,用户可通过网页端、移动应用和API接口使用。增强版Speciale则以临时API形式开放,供研究机构和开发者进行深度测评。海外技术社区对此反响热烈,部分专家认为这两款模型的发布标志着开源模型与专有系统的性能差距进入动态平衡阶段。虽然完全消除差距仍需时间,但DeepSeek通过工程优化突破参数规模限制的路径,为行业提供了新的发展思路。
