游乐游手机版
首页/科技数码/文章详情

DeepSeek新模型技术突破:以创新方法缩小与顶尖模型差距

时间:2025-12-03 19:33
在人工智能领域,开源模型与闭源模型的竞争愈发激烈。近期,DeepSeek凭借新发布的两款模型——DeepSeek V3 2和DeepSeek-V3 2-Speciale,再次成为行业焦点。这两款模型

人工智能领域的开源与闭源模型之争正日趋白热化。最近,DeepSeek凭借新发布的两款模型——DeepSeek V3.2和DeepSeek-V3.2-Speciale,再度成为业界焦点。这两款模型不仅在性能上与全球顶尖闭源模型展开正面交锋,更在技术路径上展现出独特的创新思维。

DeepSeek V3.2在基准测试中展现出与GPT-5相媲美的实力,而其高性能版本V3.2-Speciale更是在多项评测中超越GPT-5,与谷歌Gemini系列形成分庭抗礼之势。值得关注的是,该模型在国际数学奥赛(IMO 2025)和中国数学奥赛(CMO 2025)等权威赛事中斩获金牌,验证了其在复杂推理任务上的突破性进展。这是DeepSeek今年第九次发布新模型,尽管备受期待的R2版本尚未亮相,但此次技术更新已引发行业广泛关注。

技术团队通过论文披露了核心创新:稀疏注意力机制(DSA)的正式应用成为关键突破。该机制通过为模型构建“智能目录”,将计算资源聚焦于关键信息关联,显著提升长文本处理能力。传统模型在处理长句子时,计算量会随文本长度呈平方级增长,而V3.2通过动态划分注意力范围,使推理成本保持稳定。实验数据显示,当输入文本长度增加时,V3.2的推理成本增幅明显低于前代模型,展现出卓越的效率优势。

后训练阶段的强化学习策略构成另一重要创新。研究团队设计了一套新型训练协议,投入超过总训练算力10%的资源进行专项优化。这种“名师辅导班”式的训练模式,有效弥补了开源模型在复杂任务处理上的短板。特殊版本V3.2-Speciale更取消了传统模型对思考长度的限制,鼓励模型进行深度推理,从而在需要多步骤逻辑的任务中表现更加出色。

在智能体能力建设方面,DeepSeek构建了包含2.4万余个真实代码环境、5万余个搜索任务和4千余个合成场景的虚拟训练环境。团队重点优化了工具调用流程,使模型在连续任务中保持推理连贯性。改进后的系统将工具调用记录完整保留在上下文中,避免重复构建推理链,显著提升了复杂任务处理效率。这种设计特别适用于需要多步骤交互的场景,如代码调试或信息检索。

尽管取得显著进步,DeepSeek团队在论文中坦诚指出模型存在的不足。测试数据显示,V3.2-Speciale在解答复杂问题时需要消耗更多token,其token使用量较Gemini 3 Pro高出约60%。不过从成本角度看,DeepSeek仍保持显著优势——相同任务下,其费用仅为谷歌模型的二十分之一。这种“效率优先”的技术路线,与行业巨头依赖算力堆砌的模式形成鲜明对比。

DeepSeek的技术演进路径,与OpenAI前首席科学家Ilya Sutskever的观点不谋而合。这位AI领域权威专家近期指出,单纯扩大模型参数规模已非可持续发展方向。他回顾深度学习发展史强调,AlexNet仅用两块GPU,早期Transformer实验规模多在8-64块GPU范围内。DeepSeek的技术实践印证了这种判断——从MoE架构到稀疏注意力机制,其创新始终聚焦于算法效率提升而非参数规模扩张。这种技术路线选择,为资源有限的研发团队提供了重要参考范本。

来源:https://www.itbear.com.cn/html/2025-12/1038369.html
上一篇腾锐D3000M笔电中标国有大行项目,推动金融信创迈向新阶段 下一篇AWS re:Invent 2025前瞻:Trainium3与UltraServers揭幕,AI算力成本再突破
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元
科技数码 · 2026-07-03

泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元

泰坦军团“战魂KG277VPLUS”27英寸显示器发售,支持4K165Hz与FHD520Hz双模切换,定价1888元。采用FastIPS面板,97%DCI-P3色域,配备升降支架及双HDMI2 1和双DP1 4接口。

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%
科技数码 · 2026-07-03

苹果调价影响消费需求 2026年全球笔电出货量或降13.6%

迈入2026年,DRAM与NAND闪存的供应持续紧张及价格不断攀升,正逐步传导至终端消费市场。可以预见,下半年市场环境将更加严峻。上半年多家PC厂商已陆续上调产品定价,最终连苹果也不得不跟进,宣布提升iPad、Mac及家居设备的价格,以应对存储成本的快速上涨。 TrendForce分析指出,苹果全面

苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波
科技数码 · 2026-07-03

苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波

苹果自研C2芯片仅支持Sub-6GHz,不支持5G毫米波。因此,美版iPhone18Pro继续采用高通基带方案以支持毫米波,而其他地区版本则搭载苹果自研C2芯片。这一差异将导致在毫米波覆盖的市场中,用户峰值速率可能显著低于美版用户。

纳睿雷达推出睿宸超精细化短时临近AI气象大模型
科技数码 · 2026-07-03

纳睿雷达推出睿宸超精细化短时临近AI气象大模型

纳睿雷达近日释放了一项重磅成果。2026年7月1日,公司正式对外发布了两款自主研发的全新产品:一款是“WDSPT0152型”S波段全极化多功能有源相控阵雷达,另一款则是名为“睿宸”的超精细化短时临近AI气象大模型。从产品战略来看,此次发布直指气象监测与灾害预警领域的技术制高点。 先来看这款S波段雷达

南航国际创新港一期交付 四大专业园区打造空天产业强磁场
科技数码 · 2026-07-03

南航国际创新港一期交付 四大专业园区打造空天产业强磁场

近日,南京航空航天大学与六合区深度合作的标杆项目——南航国际创新港一期正式交付投用。两个地块陆续启用,成功串联起高校科研能量、地方产业载体与市场创新主体,为南京打造全国领先的航空航天产业创新中心、助力江苏布局商业航天全产业链,提供了坚实的物理支撑。 该创新港一期位于六合区雄州街道,分为3号和4号两个