首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
DeepSeek-V3.2惊现Token漏洞:答案准确性受影响,研发确认GRPO问题持续

DeepSeek-V3.2惊现Token漏洞:答案准确性受影响,研发确认GRPO问题持续

热心网友
89
转载
2025-12-04

很多网友都注意到,DeepSeek-V3.2的长思考增强版Speciale确实以其开源姿态给闭源巨头们带来了压力,但其中暴露的问题同样不容忽视。

DeepSeek-V3.2的表现相当亮眼,不过随着讨论的深入,一些技术缺陷也逐渐浮出水面。

尤其让人困扰的是,它仍然存在一个老生常谈的问题:token使用效率不高。

△图源:x@Hangslin

不少用户反馈,在处理复杂任务时,模型消耗的token数量明显偏多,有时甚至会产生看似详尽实则错误的回答。

举例来说,在解决同一个问题时,Gemini仅需2万个token,而Speciale却要花费7.7万个。

这背后究竟是怎么回事?

未被纠正的"长度偏见"

研究者指出,这个现象其实是从DeepSeek-R1-Zero开始,DeepSeek系列模型就一直存在的技术缺陷。

简单来说,问题的根源出在GRPO算法上。

来自Sea AI Lab和新加坡国立大学等研究机构的学者认为,GRPO存在两种"隐藏偏见"。

首先是长度偏见:错误答案越长,受到的惩罚反而越轻。

GRPO计算奖励时,会将"答案长度"作为考量因素,导致较短的错误回答被罚得更重。

结果就是:模型会刻意生成冗长但错误的答案,表面上像是在"认真推理",实际上是在"凑字数逃避惩罚"。

其次是难度偏见:过于简单或过于困难的问题被过度关注。

GRPO会根据"同一批题目的得分标准差"来调整权重。比如一道题所有人都做对(标准差小),或者所有人都做错(标准差也小),这类题目会被当作"重点"反复训练;而中等难度、有人对有人错的题目(标准差大),反而被忽略。但在实际训练中,中等难度的题目才是提升能力的关键。

这项研究的核心作者Zichen Liu指出,DeepSeek-V3.2已经通过新的优势值计算方式,修正了"难度偏见"(如下图红框所示)。

但仍然保留了有偏的长度规范项(如下图蓝框所示)。也就是说,"长度偏见"依然存在。

实际上,这个问题在DeepSeek最新报告中也有所提及。

技术报告中,DeepSeek研究人员坦言,token效率对于DeepSeek-V3.2来说仍是个挑战:通常情况下,本次更新的两个模型需要生成更长的轨迹,才能达到Gemini-3.0-Pro的输出质量。

而DeepSeek-V3.2-Speciale本身,也有意放宽了RL的长度限制,允许模型生成极长思维链,使得模型能够通过大量消耗token来进行深度的自我修正和探索。

可以说走的是一条"在超长上下文下持续扩展强化学习"的路线。

考虑到从百万token的输出成本来看,DeepSeek-V3.2价格仅为GPT-5的1/24,似乎尚可接受。

另外,也有网友指出,DeepSeek的128K上下文已经很久没更新了。这与GPU资源有限也不无关系。

来源:https://www.51cto.com/article/831111.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

DeepSeek API性能升级 支持500并发提速扩容
AI资讯
DeepSeek API性能升级 支持500并发提速扩容

就在今天,DeepSeek官方正式宣布,其API服务的输出速度已实现全面升级,并同步完成了服务容量的大幅扩容。这意味着,开发者和企业用户在调用模型时,将获得更快的响应速度和更稳定的服务体验。尤为关键的是,服务默认支持的并发能力现已提升至500路同时在线,这对于绝大多数应用场景而言,已经是一个非常充足

热心网友
05.23
DeepSeek V4价格优势显著 多家巨头投资布局通用人工智能
AI资讯
DeepSeek V4价格优势显著 多家巨头投资布局通用人工智能

同一天,DeepSeek接连传出两则重磅消息,让整个AI圈再次聚焦。 一边,是DeepSeek-V4-Pro API宣布永久降价。自6月1日起,V4 Pro的API价格将正式锚定在当前的促销价位,不再回调。另一边,据The Information爆料,动力电池巨头宁德时代,正在接洽参与DeepSee

热心网友
05.23
DeepSeek V4 Pro API价格大幅下调至原价四分之一
科技数码
DeepSeek V4 Pro API价格大幅下调至原价四分之一

DeepSeek-V4-ProAPI宣布永久降价至原价的四分之一。原定于2026年结束的2 5折优惠将转为长期定价标准,输入与输出费用均大幅降低。此举为开发者和企业用户提供了明确的成本利好,市场预期的优惠后涨价并未发生。

热心网友
05.23
DeepSeek为何价格亲民 低成本AI模型背后的技术解析
AI资讯
DeepSeek为何价格亲民 低成本AI模型背后的技术解析

DeepSeek的低价源于全方位成本控制:通过上下文缓存复用降低长文本生成开销,采用混合注意力机制高效处理超长序列,利用MoE架构推理时仅激活部分专家以提升算力效率。训练阶段通过算法与工程优化压缩开支,最终形成极低服务成本与竞争力定价。

热心网友
05.23
DeepSeek 宣布永久免费使用
科技数码
DeepSeek 宣布永久免费使用

近日,DeepSeek 官方对其 API 服务文档进行了一次关键性更新。根据最新发布的定价信息,DeepSeek-V4-Pro 模型的 API 计费策略已作出明确调整:原计划于 2026 年 5 月 31 日截止的 2 5 折限时优惠活动到期后,服务价格将不会回调至最初公布的标准原价,而是会永久性调

热心网友
05.23

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

刑事案件电子数据取证密码获取程序拟明确
业界动态
刑事案件电子数据取证密码获取程序拟明确

公安部就电子数据取证规则公开征求意见,拟将网络安全等行政案件纳入适用范围,并规范取证流程与核心概念。新规特别明确了获取密码、调取通讯内容等特殊程序,需经严格审批并保障当事人权利。配套法律文书也同步优化,以构建更规范且注重权利保障的取证体系。

热心网友
05.23
小鹏G9降价12万背后何小鹏的豪赌与挑战
业界动态
小鹏G9降价12万背后何小鹏的豪赌与挑战

理想L9和LIvis的定价策略刚掀起波澜,小鹏GX的最终价格就给出了更猛烈的回应——从近40万元的预售价直降至27万元起。用小鹏产品矩阵负责人吴安飞的话说,这叫“9系的产品,8系的价格”。 这12万元的下调,效果堪称立竿见影。发布会次日,小鹏集团港股股价一度大涨超8%。更关键的是市场订单:上市12小

热心网友
05.23
魏建军感谢于东来支援环塔拉力赛 红牛千箱胖东来厨师助阵
业界动态
魏建军感谢于东来支援环塔拉力赛 红牛千箱胖东来厨师助阵

5月21日,环塔拉力赛新疆且末赛段大营迎来了一位备受瞩目的访客——知名零售企业胖东来的创始人于东来。他专程前往长城汽车车队营地,与参赛车手及后勤团队进行了深度交流。据悉,于东来此次自驾越野之旅已历时一月,随行车队中包含多款国产越野车型。经过实地驾驶与多维度对比,他对以长城汽车为代表的国产越野车品质给

热心网友
05.23
2026年比特币官方APP下载入口及官网安全访问指南
web3.0
2026年比特币官方APP下载入口及官网安全访问指南

比特币官方入口在哪里?一个核心门户的权威指南 说起比特币,很多人第一反应是去找它的“官网”或“官方App”。但这里有个关键点需要先理清:比特币本质上是一种去中心化的全球数字货币,它不属于任何一家公司或机构,而是由一个庞大的、遍布全球的社区共同维护。因此,它并没有传统意义上由某个企业运营的“官方网站”

热心网友
05.23
蚂蚁开源万亿参数思考模型Ring-2.5-1T详解
AI资讯
蚂蚁开源万亿参数思考模型Ring-2.5-1T详解

Ring-2 5-1T是什么 在当今大模型技术激烈竞争的赛道上,追求更长的上下文处理能力和更强大的深度推理性能已成为核心焦点。近日,蚂蚁集团旗下的inclusionAI团队重磅开源了Ring-2 5-1T模型,这是一个参数规模高达万亿级别的混合线性思考大语言模型。该模型基于先进的Ling 2 5架构

热心网友
05.23