上下文窗口直接翻倍,达到128k。这绝非小幅度升级,意味着模型现在能一次性处理的信息量,几乎是原先的两倍,大幅提升了长文本理解能力。
DeepSeek V3.1正式上线
DeepSeek昨晚在官方社群发布消息,线上版本模型已升级至DeepSeek V3.1。用户可通过网页端、App端和小程序端直接体验新模型的强大性能。更重要的是,此次升级不仅拓宽了上下文记忆,还将界面上的“深度思考(R1)”字样简化为了纯粹的“深度思考”。有网友猜测,这或许是推理模型与非推理模型融合的信号,但官方目前尚未给出明确解释。
左侧为旧版页面,右侧为新版。仅从命名来看,V3.1已经让人期待它在V3-0324基础上能带来多少实质性提升。
模型现已上传至Hugging Face,但当前开源的是未经指令微调的Base版本。配置文件、脚本代码和模型权重均可直接下载。与V3-0324版本相比,参数量和张量类型变化不大,属于同底子下的迭代升级。
上方为DeepSeek-V3-0324的开源页面,下方为DeepSeek-V3.1-Base的开源页面。
实际能力测试:进步显著,但仍有不足
我们第一时间在网页端对新模型进行了实测,从初步结果来看,编程能力、物理定律理解、创意写作、数学计算、语气风格等方面均有不同程度的提升与变化。以下详细分析几个关键场景。
个人网站开发:更复杂也更专业
我们让DeepSeek-V3.1“设计一个美观且具科技感的个人博客网站,直接生成可用的网页”。结果十分明显——代码长度增加,开发耗时更长,但最终交付成果在完成度和美观性上确实有所提升。布局更合理,重点更突出,栏目规划更完整,甚至还加入了图片(尽管部分图片未能正常显示)。
相比之下,V3-0324版本生成的网页则简洁得多,特效也较为有限。这个差距在开发类场景中尤为关键。
小游戏开发:能运行,但不够完美
让模型复现Chrome断网时的小恐龙游戏,约2分钟完成开发。画风和规则与原版差别不大,但小恐龙外观未准确还原,障碍生成和跳跃逻辑(不支持“二段跳”)导致可玩性欠佳。只能说在快速原型方面表现不错,但若想达到可玩级别,仍需进一步打磨。
小众历史问题:信息量增大,但结论更审慎
我们之前问过DeepSeek-V3-0324一个偏门问题:“布须曼人喝牛奶吗?”这是一个关于非洲南部少数民族的问题,极考验模型的幻觉控制能力。V3.1给出的答案与上一代模型明显不同,信息量大幅增加,并提供了更多细节。经事实核查,新增细节基本都有事实依据,并非虚构。
有趣的是,V3.1在回答时语气更活泼、更温暖,语言更通俗口语化。它会先肯定用户的提问,再展开回答,并提供更多背景情境,让解释更丰满、更具故事性。相比之下,V3-0324下结论更绝对、更肯定,而V3.1则使用了更多条件性语句,强调情况的复杂性与演变过程,避免非黑即白的结论。有网友开玩笑称它成了“端水大师”。
谁更牛?马斯克还是Altman?
近期马斯克与OpenAI CEO Sam Altman在社交媒体上互掐,马斯克还晒出GPT-5截图称“他比Altman更伟大”。我们将同样问题交给DeepSeek-V3.1,并限定只输出一个名字。它选择了马斯克,但为Altman补充了不少优点。没有完全遵循“只输出一个名字”的指令,而是对两位大佬都给予夸赞,将端水政策贯彻到底。
诗歌创作:依然是熟悉的味道
让DeepSeek-V3.1写一首诗致敬DeepSeek-V3,成文后发现——仍是熟悉的DeepSeek风格,充满各种比喻和类比,听起来富有诗意,但内容上并未有重大突破。
数学能力:基础题也经历波折
在“9.8-9.11”这类基础算术题上,DeepSeek-V3.1最终能给出正确答案,但过程却有些曲折。它先得出一版正确答案,却在最终回复时输错数字,随后自我反思才改回正确版本。这一现象说明模型在数学推理方面仍有提升空间。
网友反馈:收获好评,部分人期待更多
模型上线后,不少网友第一时间进行了体验。AI博主Zephyr反馈,新模型打造的小球弹跳效果更符合物理定律,还支持重力、摩擦、旋转速度、弹跳等可调参数。还有网友让DeepSeek-V3.1为自己生成“自画像”,效果同样不错。
体验过模型能力后,一些网友已迫不及待守候DeepSeek的Hugging Face主页。按惯例,后续或许会有更多不同版本的DeepSeek-V3.1开源。毕竟这次的Base版本只是一个起点,真正可用的版本还需等待后续的指令微调版本。
