DeepSeek-V3.2惊现Token漏洞:答案准确性受影响,研发确认GRPO问题持续
很多网友都注意到,DeepSeek-V3.2的长思考增强版Speciale确实以其开源姿态给闭源巨头们带来了压力,但其中暴露的问题同样不容忽视。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
DeepSeek-V3.2的表现相当亮眼,不过随着讨论的深入,一些技术缺陷也逐渐浮出水面。
尤其让人困扰的是,它仍然存在一个老生常谈的问题:token使用效率不高。
△图源:x@Hangslin
不少用户反馈,在处理复杂任务时,模型消耗的token数量明显偏多,有时甚至会产生看似详尽实则错误的回答。
举例来说,在解决同一个问题时,Gemini仅需2万个token,而Speciale却要花费7.7万个。

这背后究竟是怎么回事?
未被纠正的"长度偏见"
研究者指出,这个现象其实是从DeepSeek-R1-Zero开始,DeepSeek系列模型就一直存在的技术缺陷。

简单来说,问题的根源出在GRPO算法上。
来自Sea AI Lab和新加坡国立大学等研究机构的学者认为,GRPO存在两种"隐藏偏见"。
首先是长度偏见:错误答案越长,受到的惩罚反而越轻。
GRPO计算奖励时,会将"答案长度"作为考量因素,导致较短的错误回答被罚得更重。
结果就是:模型会刻意生成冗长但错误的答案,表面上像是在"认真推理",实际上是在"凑字数逃避惩罚"。
其次是难度偏见:过于简单或过于困难的问题被过度关注。
GRPO会根据"同一批题目的得分标准差"来调整权重。比如一道题所有人都做对(标准差小),或者所有人都做错(标准差也小),这类题目会被当作"重点"反复训练;而中等难度、有人对有人错的题目(标准差大),反而被忽略。但在实际训练中,中等难度的题目才是提升能力的关键。
这项研究的核心作者Zichen Liu指出,DeepSeek-V3.2已经通过新的优势值计算方式,修正了"难度偏见"(如下图红框所示)。
但仍然保留了有偏的长度规范项(如下图蓝框所示)。也就是说,"长度偏见"依然存在。

实际上,这个问题在DeepSeek最新报告中也有所提及。
技术报告中,DeepSeek研究人员坦言,token效率对于DeepSeek-V3.2来说仍是个挑战:通常情况下,本次更新的两个模型需要生成更长的轨迹,才能达到Gemini-3.0-Pro的输出质量。
而DeepSeek-V3.2-Speciale本身,也有意放宽了RL的长度限制,允许模型生成极长思维链,使得模型能够通过大量消耗token来进行深度的自我修正和探索。
可以说走的是一条"在超长上下文下持续扩展强化学习"的路线。
考虑到从百万token的输出成本来看,DeepSeek-V3.2价格仅为GPT-5的1/24,似乎尚可接受。
另外,也有网友指出,DeepSeek的128K上下文已经很久没更新了。这与GPU资源有限也不无关系。

相关攻略
如何彻底卸载 OpenClaw?多种清洁卸载方法详解 OpenClaw 是一款广受好评的开源应用程序,许多用户选择在 Windows 操作系统上安装使用。然而,当你不再需要它时,如何确保将其从电脑中完全、彻底地移除呢?许多用户反馈,简单的卸载操作常常会遗留冗余文件和注册表项,这些“残余数据”长期累积
DeepSeek 崩上热搜!宕机背后暗藏重大升级信号 一次持续超过8小时的服务中断,让国产AI大模型DeepSeek意外登上社交媒体热搜榜。这场突如其来的技术故障,让无数正在赶论文、进行角色扮演对话,甚至单纯想找AI聊天的用户,共同体验了数字时代的“依赖戒断反应”。 然而,行业观察人士普遍认为,此次
(更新:已恢复) DeepSeek崩了 冲上热搜,服务突发故障无法加载内容 3月29日晚间,国内人工智能领域出现突发服务异常。大量用户反映,备受关注的大语言模型DeepSeek出现访问故障,界面持续加载无法正常使用。话题“DeepSeek 崩了”迅速登上微博热搜榜,引发广泛讨论。 从社交媒体实时反馈
4月1日消息,随着AI不断深入日常生活,大家有没有发现AI越来越会拍彩虹屁了?近期发表在权威期刊《Science》上的一篇论文,对目前全球最先进的11个大语言模型进行了系统评估,揭露了一个有趣的真相
3月最后一周,DeepSeek突发大规模服务中断,OpenAI宣布关闭AI视频生成工具Sora。当前的AI行业,技术领先不等于商业成功,惊艳亮相不等于能笑到最后。原标题:《视频 | DeepSeek
热门专题
热门推荐
4月3日消息,今日,vivo年度影像旗舰X300 Ultra正式开售,新机定位专业V单+口袋摄影机,影像能力全面拉满。vivo X300 Ultra配备蔡司大师镜头群,覆盖14mm蔡司超广角、35m
4月2日消息,微软资深Windows工程师Raymond Chen发布长文,呼吁用户和企业IT团队,不要每次在系统出现问题后就第一时间将责任归咎于Windows更新。Chen指出,许多被归咎于每月更
近期,日本玩家围绕卡普空旗下女性角色视觉风格的变迁展开了广泛讨论。有玩家将十年前以当时技术水准塑造的代表性美少女角色玛莉·萝丝,与近年运用最新技术打造的英格丽德进行对比,认为后者在角色表现力上并未体
有多少资深玩家还记得AQUAPLUS旗下那款经典的恋爱冒险作品ToHeart?多年来,关于推出第三部续作的呼声始终不绝于耳。然而,这一计划事实上已被官方终止。近日,该公司社长在一次访谈中透露了项目搁
2026年4月5日,电动自行车行业正面临双重压力:国家层面的以旧换新补贴政策正式退出,叠加原材料成本持续攀升,导致终端售价普遍上调,市场销售明显承压。根据2026年最新实施的消费品以旧换新政策,电动






