先说几个关键变化。今年8月DeepSeek-V3.1上线后,不少用户在调用API时遇到一个颇为头疼的Bug——模型会不受控制地随机输出“极”、“極”、“extreme”这些字样,稍不注意就会导致编译崩溃,严重干扰日常开发流程。

DeepSeek-V3.1的“极”字Bug(图源:知乎@Fun10165)
本次智东西专门调用了最新的DeepSeek-V3.1-Terminus API,试图亲手复现这一异常。网上流传的那些所谓“高危”提示词——比如让模型写Go语言、处理版本号或者执行时间相关任务——我们都逐一测试了一遍。结果如何?Bug并未出现。从实测结果来看,这个问题已被彻底修复。

DeepSeek-V3-Terminus未因“高危”提示词而触发Bug
此外,海外用户还反馈过一个多语言混用问题,在小语种翻译场景中尤其明显。有Reddit网友分享,DeepSeek曾将中、英、俄三种语言混合输出,异常文本比例有时高达5%。

网友分享DeepSeek-V3.1多语言混用问题(图源:Reddit @Kitano_o)
为了验证修复效果,我们让V3.1-Terminus将“人工智能正在改变我们的世界,它带来了巨大的机遇,也需要我们认真思考其挑战。”这句话翻译成7种不同的小语种。结果令人满意——回答干净利落,没有任何语言混杂的迹象。看来,这个Bug也被一并消除了。

01.两大关键Bug彻底清除,DeepSeek-V3.1-Terminus不再犯糊涂
除了修复Bug,DeepSeek-V3.1-Terminus在编程能力和搜索智能体能力上也实现显著提升,这才是真正的亮点。
编程任务方面,我们尝试让它复现一个经典的小球弹跳效果。模型的输出带来了惊喜——页面走简约风格,但模拟的重力和摩擦力效果非常逼真。要实现这种效果,不仅需要扎实的编程基础,还得对物理原理有深刻理解。

动画效果同样可圈可点,小球的轨迹和碰撞都相当自然流畅:

智能体能力方面也有亮眼表现。我们让模型推荐几款适合新手在阳台盆栽的植物,这个测试设计得很有讲究。它需要模型同时满足“阳台盆栽”、“生长快”、“可生食”、“对儿童安全”这四个条件,还必须交叉验证信息的可靠性,最后整合提炼并给出必要的风险提示。
从最终输出看,DeepSeek-V3.1-Terminus给出的答案考虑周全,经人工核查事实准确,可读性也很强。

02.小球弹跳效果惊艳,还能快速交叉检索信息
V3.1-Terminus中的“Terminus”一词,在拉丁语里意为“终点”或“界限”。这个命名本身就耐人寻味。我试着让DeepSeek自己解读,它认为这可能象征V3.1是该系列架构的终极版本,意味着当前技术路径已经趋于成熟和完善。

当然,也有网友猜测,Terminus或许暗示模型在编程终端里的表现更出色了。具体寓意是什么,恐怕要等官方揭晓。不过话说回来,此前外媒已有报道称,DeepSeek今年年底可能推出Agent模型。从这一节奏看,V3.1-Terminus或许并非终点,而是朝着更强大、更智能的Agent迈出的坚实一步。下一轮重大更新,或许已经不远了。
