游乐游手机版
首页/AI教程/文章详情

DeepSeek新模型追平谷歌最强,挑战GPT-5

时间:2026-06-19 13:48
DeepSeek发布V3 2系列模型,正式版与Speciale版本在IMO、ICPC等四项竞赛中获金牌级成绩,推理性能比肩GPT-5与Gemini3 0Pro。采用稀疏注意力架构降低计算成本,首次将推理思考整合到工具使用中,模型已开源。

DeepSeek‑R1、DeepSeek‑R1‑Zero

DeepSeek‑V3、DeepSeek‑V3.1、DeepSeek‑V3.1-Terminus、DeepSeek‑V3.2‑Exp

DeepSeek‑OCR、DeepSeek‑Math-V2

DeepSeek再度重磅出击,一次性发布了四款在数学和编程奥林匹克竞赛中斩获金牌级成绩的AI模型。全新推出的DeepSeek-V3.2系列专为智能体应用场景打造,以推理能力为核心优先考量。

具体来看,DeepSeek-V3.2是此前V3.2-Exp版本的正式迭代,现已登陆App、网页端及API接口;而V3.2-Speciale则是突破推理能力天花板的终极版本,目前仅通过API提供服务。这两款模型均达到世界级推理水准:V3.2在推理与文本长度处理上表现均衡,日常使用游刃有余,性能直逼GPT-5;Speciale版本更是一举夺得四项金牌级成就——包括IMO 2025、CMO 2025、ICPC World Finals 2025和IOI 2025,其中在ICPC和IOI上的成绩分别达到人类选手第二名与第十名的水平。在主流推理基准测试中,V3.2-Speciale的表现甚至可与Gemini 3.0 Pro一较高下。

更值得关注的是,V3.2是首个将推理思考过程直接整合到工具使用中的模型,支持在思考模式与非思考模式下调用工具。目前,这两款模型均已开源,用户可直接从HuggingFace和ModelScope平台下载。

· DeepSeek-V3.2

HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V3.2

ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2

· DeepSeek-V3.2-Speciale

HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale

ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale

从「引擎验证」到「全能车手」,DeepSeek V3.2的进化之路

两个月前发布的DeepSeek-V3.2-Exp,本质上是一台呼啸而过的“概念车”——它的使命在于向业界证明稀疏注意力(DSA)架构的强大潜力。而如今正式转正的V3.2,则是一辆完成了内饰精装、配备了顶级导航系统、随时可以开出去解决复杂问题的“量产超跑”。核心引擎未变,但其智能体能力(Agent能力)实现了质的飞跃。

V3.2正式版 vs. Exp:学会了「边干边想」

在架构层面,V3.2沿用了Exp版验证成功的DSA,但在“软实力”上取得了关键突破——成功解决了长期困扰AI领域的“思考与行动断裂”问题。早期的V3.2-Exp(以及其他多数推理模型)如同记性不佳的老学究:先花大量时间思考,决定调用某个工具(比如查询天气),当工具返回结果时,它往往忘了之前的推理脉络,不得不重新规划。V3.2正式版引入了“思维上下文管理”,相当于为模型配备了一个“工作记忆暂存区”。如今的V3.2像经验丰富的外科医生:伸手要手术刀的间隙,脑海中的手术方案依然清晰连贯,拿到器械后便能无缝衔接下一步操作。

为练就这项绝活,DeepSeek搭建了一个“虚拟演练场”——合成了1800多个虚拟操作系统、代码库和浏览器环境,生成了8.5万条极具挑战性的指令,迫使V3.2在虚拟世界中反复练习修复Bug、查找资料、制作报表。正是这种高强度的特训,将V3.2从一个只会解题的“做题家”,进化为能熟练运用工具解决现实问题的“实干家”。

最大技术亮点:给注意力装上「闪电索引器」

V3.2能够同时兼顾“聪明”与“低成本”,最大功臣依然是底层的稀疏注意力(DSA)技术。

要理解它的威力,得先看看传统模型有多“笨”。传统模型在处理长文档时,就像一位强迫症晚期的图书管理员:为了回答一个简单问题,强迫自己把图书馆里每本书的每一页都读一遍,计算所有内容之间的关联,导致计算量随文本长度呈指数级爆炸(O(L²))。而DSA则为这位管理员配备了一套“闪电索引器”:问题一来,先用极低成本扫描“索引”,瞬间判断哪些页码可能包含答案,过滤掉99%无关内容,只对筛选出的1%关键信息进行深度分析。这种“查阅目录”而非“死磕全书”的策略,将计算复杂度从指数级拉低至接近线性(O(L))。

带来的显著提升:打破「不可能三角」

DSA技术直接突破了AI领域“速度、成本、智能”的不可能三角。

其一,成本大幅下降,长文本处理无忧。将一本几十万字的书籍或代码库丢给模型,不再是“烧钱”的奢侈行为,处理速度也从“泡杯咖啡”提升至“眨眼之间”。其二,算力盈余催生“智力涌现”。正因DSA节省了大量算力,DeepSeek才有底气推出性能惊人的Speciale版本——既然读得快,那就让它思考得更久。Speciale利用节省下来的资源进行更深度的“长思考”与逻辑推演,结果令人震撼:在数学和编程等硬核指标上,不仅超越了GPT-5 High,还与谷歌最强的Gemini 3.0 Pro打成平手。

从验证DSA引擎潜力的V3.2-Exp,到将智能体能力、思维上下文管理、虚拟演练场训练全部集成的V3.2正式版,DeepSeek展示了一条通往强智能的新路径:在算力受限的条件下,依靠更聪明的架构、更精细的训练和更开放的生态,不断逼近推理能力的极限。如果说之前的Scaling Law是“无脑烧钱”,那么V3.2的横空出世,则是通过更巧妙的算法在算力缝隙中开辟出一条通往顶峰的捷径——这或许就是开源AI最激动人心的时刻。

来源:https://www.aiagiai.com/15350.html
上一篇算力悖论:理论正确算力可控,错误再多也徒劳 下一篇人工智能驱动科学的最新进展走到了哪一步
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Claude Token节省十大实用技巧方案
AI教程 · 2026-07-04

Claude Token节省十大实用技巧方案

通过编辑而非追加消息、每15-20条消息开新对话、合并问题、利用Projects缓存、预设记忆、关闭附加功能、按任务选择模型、分散时段、避开高峰及开启超额使用,能有效减少上下文重读,节省Token。

硅基流动冲刺Token工厂第一股亏损反更值钱?
AI教程 · 2026-07-04

硅基流动冲刺Token工厂第一股亏损反更值钱?

硅基流动冲刺港交所“Token工厂第一股”,2025年营收5533万元,净亏损3 45亿元,毛利率-24%。两条业务线分化:公有云服务亏损严重,本地部署毛利率达82 5%。依赖中立第三方定位吸引资本,但面临原厂降价、大厂竞争及供应链风险,估值77亿背后存隐忧。

AI Agent的真正价值在于长在业务流程中
AI教程 · 2026-07-04

AI Agent的真正价值在于长在业务流程中

AIAgent需嵌入企业业务流程,而非仅作聊天工具。以零售品类管理为例,通过趋势识别、选品与货架规划,预计可带来2%—5%销售提升及10%P&L改善。设计需模块化、可整合,确保可解释性,重新界定人、AI与工具的关系。

后张雪峰时代大厂抢滩AI志愿填报
AI教程 · 2026-07-04

后张雪峰时代大厂抢滩AI志愿填报

AI高考志愿填报工具在大厂推动下普及,能快速整合信息、生成方案,但存在数据幻觉、同质化风险。它无法替代张雪峰式实用主义建议和信誉责任,志愿填报仍需个性化判断与深度信息。

阿里禁用Anthropic全系产品的理性风控决策
AI教程 · 2026-07-04

阿里禁用Anthropic全系产品的理性风控决策

阿里自7月10日起全员禁用Anthropic全系产品,因其ClaudeCode被发现存在隐蔽身份识别与隐写标记机制,且Anthropic曾指控阿里进行模型蒸馏。此举源于安全信任崩塌、中美AI博弈加剧,阿里同步换装自研工具Qoder,推动国产AI编码工具替代。