DeepSeek-V3.2惊现Token漏洞：答案准确性受影响，研发确认GRPO问题持续

首页

AI资讯

热心网友

转载

2025-12-04

很多网友都注意到，DeepSeek-V3.2的长思考增强版Speciale确实以其开源姿态给闭源巨头们带来了压力，但其中暴露的问题同样不容忽视。

DeepSeek-V3.2的表现相当亮眼，不过随着讨论的深入，一些技术缺陷也逐渐浮出水面。

尤其让人困扰的是，它仍然存在一个老生常谈的问题：token使用效率不高。

△图源：x@Hangslin

不少用户反馈，在处理复杂任务时，模型消耗的token数量明显偏多，有时甚至会产生看似详尽实则错误的回答。

举例来说，在解决同一个问题时，Gemini仅需2万个token，而Speciale却要花费7.7万个。

这背后究竟是怎么回事？

未被纠正的"长度偏见"

研究者指出，这个现象其实是从DeepSeek-R1-Zero开始，DeepSeek系列模型就一直存在的技术缺陷。

简单来说，问题的根源出在GRPO算法上。

来自Sea AI Lab和新加坡国立大学等研究机构的学者认为，GRPO存在两种"隐藏偏见"。

首先是长度偏见：错误答案越长，受到的惩罚反而越轻。

GRPO计算奖励时，会将"答案长度"作为考量因素，导致较短的错误回答被罚得更重。

结果就是：模型会刻意生成冗长但错误的答案，表面上像是在"认真推理"，实际上是在"凑字数逃避惩罚"。

其次是难度偏见：过于简单或过于困难的问题被过度关注。

GRPO会根据"同一批题目的得分标准差"来调整权重。比如一道题所有人都做对（标准差小），或者所有人都做错（标准差也小），这类题目会被当作"重点"反复训练；而中等难度、有人对有人错的题目（标准差大），反而被忽略。但在实际训练中，中等难度的题目才是提升能力的关键。

这项研究的核心作者Zichen Liu指出，DeepSeek-V3.2已经通过新的优势值计算方式，修正了"难度偏见"（如下图红框所示）。

但仍然保留了有偏的长度规范项（如下图蓝框所示）。也就是说，"长度偏见"依然存在。

实际上，这个问题在DeepSeek最新报告中也有所提及。

技术报告中，DeepSeek研究人员坦言，token效率对于DeepSeek-V3.2来说仍是个挑战：通常情况下，本次更新的两个模型需要生成更长的轨迹，才能达到Gemini-3.0-Pro的输出质量。

而DeepSeek-V3.2-Speciale本身，也有意放宽了RL的长度限制，允许模型生成极长思维链，使得模型能够通过大量消耗token来进行深度的自我修正和探索。

可以说走的是一条"在超长上下文下持续扩展强化学习"的路线。

考虑到从百万token的输出成本来看，DeepSeek-V3.2价格仅为GPT-5的1/24，似乎尚可接受。

另外，也有网友指出，DeepSeek的128K上下文已经很久没更新了。这与GPU资源有限也不无关系。

来源:https://www.51cto.com/article/831111.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：AI颠覆软件测试的7大路径，重塑行业惯例下一篇：11.98万起！第三代蓝电E5 PLUS上市，限时换新优惠开启

相关攻略

AI资讯

DeepSeek API性能升级支持500并发提速扩容

就在今天，DeepSeek官方正式宣布，其API服务的输出速度已实现全面升级，并同步完成了服务容量的大幅扩容。这意味着，开发者和企业用户在调用模型时，将获得更快的响应速度和更稳定的服务体验。尤为关键的是，服务默认支持的并发能力现已提升至500路同时在线，这对于绝大多数应用场景而言，已经是一个非常充足

热心网友

05.23

AI资讯

DeepSeek V4价格优势显著多家巨头投资布局通用人工智能

同一天，DeepSeek接连传出两则重磅消息，让整个AI圈再次聚焦。一边，是DeepSeek-V4-Pro API宣布永久降价。自6月1日起，V4 Pro的API价格将正式锚定在当前的促销价位，不再回调。另一边，据The Information爆料，动力电池巨头宁德时代，正在接洽参与DeepSee

热心网友

05.23

科技数码

DeepSeek V4 Pro API价格大幅下调至原价四分之一

DeepSeek-V4-ProAPI宣布永久降价至原价的四分之一。原定于2026年结束的2 5折优惠将转为长期定价标准，输入与输出费用均大幅降低。此举为开发者和企业用户提供了明确的成本利好，市场预期的优惠后涨价并未发生。

热心网友

05.23

AI资讯

DeepSeek为何价格亲民低成本AI模型背后的技术解析

DeepSeek的低价源于全方位成本控制：通过上下文缓存复用降低长文本生成开销，采用混合注意力机制高效处理超长序列，利用MoE架构推理时仅激活部分专家以提升算力效率。训练阶段通过算法与工程优化压缩开支，最终形成极低服务成本与竞争力定价。

热心网友

05.23

科技数码

DeepSeek 宣布永久免费使用

近日，DeepSeek 官方对其 API 服务文档进行了一次关键性更新。根据最新发布的定价信息，DeepSeek-V4-Pro 模型的 API 计费策略已作出明确调整：原计划于 2026 年 5 月 31 日截止的 2 5 折限时优惠活动到期后，服务价格将不会回调至最初公布的标准原价，而是会永久性调

热心网友

05.23

热门推荐

业界动态

刑事案件电子数据取证密码获取程序拟明确

公安部就电子数据取证规则公开征求意见，拟将网络安全等行政案件纳入适用范围，并规范取证流程与核心概念。新规特别明确了获取密码、调取通讯内容等特殊程序，需经严格审批并保障当事人权利。配套法律文书也同步优化，以构建更规范且注重权利保障的取证体系。

热心网友

05.23

业界动态

小鹏G9降价12万背后何小鹏的豪赌与挑战

理想L9和LIvis的定价策略刚掀起波澜，小鹏GX的最终价格就给出了更猛烈的回应——从近40万元的预售价直降至27万元起。用小鹏产品矩阵负责人吴安飞的话说，这叫“9系的产品，8系的价格”。这12万元的下调，效果堪称立竿见影。发布会次日，小鹏集团港股股价一度大涨超8%。更关键的是市场订单：上市12小

热心网友

05.23

业界动态

魏建军感谢于东来支援环塔拉力赛红牛千箱胖东来厨师助阵

5月21日，环塔拉力赛新疆且末赛段大营迎来了一位备受瞩目的访客——知名零售企业胖东来的创始人于东来。他专程前往长城汽车车队营地，与参赛车手及后勤团队进行了深度交流。据悉，于东来此次自驾越野之旅已历时一月，随行车队中包含多款国产越野车型。经过实地驾驶与多维度对比，他对以长城汽车为代表的国产越野车品质给

热心网友

05.23