游乐游手机版
首页/AI教程/文章详情

DeepSeek新模型开源 五大能力变化 一手实测

时间:2026-06-23 14:27
上下文窗口直接翻倍,达到128k。这绝非小幅度升级,意味着模型现在能一次性处理的信息量,几乎是原先的两倍,大幅提升了长文本理解能力。 DeepSeek V3 1正式上线 DeepSeek昨晚在官方社群发布消息,线上版本模型已升级至DeepSeek V3 1。用户可通过网页端、App端和小程序端直接体

上下文窗口直接翻倍,达到128k。这绝非小幅度升级,意味着模型现在能一次性处理的信息量,几乎是原先的两倍,大幅提升了长文本理解能力。

DeepSeek V3.1正式上线

DeepSeek昨晚在官方社群发布消息,线上版本模型已升级至DeepSeek V3.1。用户可通过网页端、App端和小程序端直接体验新模型的强大性能。更重要的是,此次升级不仅拓宽了上下文记忆,还将界面上的“深度思考(R1)”字样简化为了纯粹的“深度思考”。有网友猜测,这或许是推理模型与非推理模型融合的信号,但官方目前尚未给出明确解释。

左侧为旧版页面,右侧为新版。仅从命名来看,V3.1已经让人期待它在V3-0324基础上能带来多少实质性提升。

模型现已上传至Hugging Face,但当前开源的是未经指令微调的Base版本。配置文件、脚本代码和模型权重均可直接下载。与V3-0324版本相比,参数量和张量类型变化不大,属于同底子下的迭代升级。

上方为DeepSeek-V3-0324的开源页面,下方为DeepSeek-V3.1-Base的开源页面。

实际能力测试:进步显著,但仍有不足

我们第一时间在网页端对新模型进行了实测,从初步结果来看,编程能力、物理定律理解、创意写作、数学计算、语气风格等方面均有不同程度的提升与变化。以下详细分析几个关键场景。

个人网站开发:更复杂也更专业

我们让DeepSeek-V3.1“设计一个美观且具科技感的个人博客网站,直接生成可用的网页”。结果十分明显——代码长度增加,开发耗时更长,但最终交付成果在完成度和美观性上确实有所提升。布局更合理,重点更突出,栏目规划更完整,甚至还加入了图片(尽管部分图片未能正常显示)。

相比之下,V3-0324版本生成的网页则简洁得多,特效也较为有限。这个差距在开发类场景中尤为关键。

小游戏开发:能运行,但不够完美

让模型复现Chrome断网时的小恐龙游戏,约2分钟完成开发。画风和规则与原版差别不大,但小恐龙外观未准确还原,障碍生成和跳跃逻辑(不支持“二段跳”)导致可玩性欠佳。只能说在快速原型方面表现不错,但若想达到可玩级别,仍需进一步打磨。

小众历史问题:信息量增大,但结论更审慎

我们之前问过DeepSeek-V3-0324一个偏门问题:“布须曼人喝牛奶吗?”这是一个关于非洲南部少数民族的问题,极考验模型的幻觉控制能力。V3.1给出的答案与上一代模型明显不同,信息量大幅增加,并提供了更多细节。经事实核查,新增细节基本都有事实依据,并非虚构。

有趣的是,V3.1在回答时语气更活泼、更温暖,语言更通俗口语化。它会先肯定用户的提问,再展开回答,并提供更多背景情境,让解释更丰满、更具故事性。相比之下,V3-0324下结论更绝对、更肯定,而V3.1则使用了更多条件性语句,强调情况的复杂性与演变过程,避免非黑即白的结论。有网友开玩笑称它成了“端水大师”。

谁更牛?马斯克还是Altman?

近期马斯克与OpenAI CEO Sam Altman在社交媒体上互掐,马斯克还晒出GPT-5截图称“他比Altman更伟大”。我们将同样问题交给DeepSeek-V3.1,并限定只输出一个名字。它选择了马斯克,但为Altman补充了不少优点。没有完全遵循“只输出一个名字”的指令,而是对两位大佬都给予夸赞,将端水政策贯彻到底。

诗歌创作:依然是熟悉的味道

让DeepSeek-V3.1写一首诗致敬DeepSeek-V3,成文后发现——仍是熟悉的DeepSeek风格,充满各种比喻和类比,听起来富有诗意,但内容上并未有重大突破。

数学能力:基础题也经历波折

在“9.8-9.11”这类基础算术题上,DeepSeek-V3.1最终能给出正确答案,但过程却有些曲折。它先得出一版正确答案,却在最终回复时输错数字,随后自我反思才改回正确版本。这一现象说明模型在数学推理方面仍有提升空间。

网友反馈:收获好评,部分人期待更多

模型上线后,不少网友第一时间进行了体验。AI博主Zephyr反馈,新模型打造的小球弹跳效果更符合物理定律,还支持重力、摩擦、旋转速度、弹跳等可调参数。还有网友让DeepSeek-V3.1为自己生成“自画像”,效果同样不错。

体验过模型能力后,一些网友已迫不及待守候DeepSeek的Hugging Face主页。按惯例,后续或许会有更多不同版本的DeepSeek-V3.1开源。毕竟这次的Base版本只是一个起点,真正可用的版本还需等待后续的指令微调版本。

来源:https://www.aiagiai.com/14061.html
上一篇人人拥有贾维斯?浙大团队OS Agents深度解读 下一篇DeepSeek新模型低调上线编程超越Claude 4写作欠佳
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案
AI教程 · 2026-07-02

内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案

这三年,内网RPA项目接了不下二十个。每次开局都像闯关——断网、缺依赖、多机同步、定时执行、批量分发、源码保护、AI离线化,八个坑一个比一个深。今天把这些实战经验整理出来,希望能帮正在内网搞自动化的兄弟们少踩点雷。 一、内网无网络环境怎么部署RPA流程:先搞清楚什么叫“真离线” 很多工具宣传“支持本

水利工程师用WorkBuddy写洪水报告效率提升3倍
AI教程 · 2026-07-02

水利工程师用WorkBuddy写洪水报告效率提升3倍

WorkBuddy开发者分享季 水利工程师AI提效实战:用WorkBuddy撰写洪水影响评价报告,效率提升3倍 WorkBuddy 效率 人工智能 开发工具 一、我是谁,为什么需要AI 先介绍一下自己——我是一名水利工程师,在湖南长沙的一家小型水利设计公司任职。当前行业环境不太

日志服务数据加工规则洞察仪表盘使用指南
AI教程 · 2026-07-02

日志服务数据加工规则洞察仪表盘使用指南

数据加工诊断仪表盘 想实时掌握日志服务加工功能的运行状态?直接从加工列表页点击那个“规则洞察”按钮,仪表盘就会立刻呈现出来。入口就在那儿,不绕弯子。 跳转后,你可以按作业名称、实例ID或源LogStore来筛选任务状态。比如下边这张图,展示的是当前实例ID(90c9d47714dbb807d47c1

基于RFID的固定资产管理系统技术架构与工程实践
AI教程 · 2026-07-02

基于RFID的固定资产管理系统技术架构与工程实践

固定资产管理难题是众多企事业单位的普遍困扰,资产数量动辄数千件,且广泛分布于不同部门、楼层乃至园区。传统人工盘点方式在工程维度上始终面临三大关键瓶颈:采集效率低下、数据闭环中断、状态同步滞后。使用条码枪逐一扫描标签,识别距离通常不超过30厘米,操作人员需逐个寻找并扫描,盘点效率完全受限于人力。面对5

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效
AI教程 · 2026-07-02

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效

炒股的朋友们想必都深有体会——每天重复盯盘、查行情、分析板块轮动,这一整套流程下来耗费大量精力。手动翻查数据不仅身心俱疲,还很容易错过关键买卖节点。今天我们就来聊聊如何打造一款趁手的盯盘工具,借助AI替你分担这些重复性工作。 背景:盯盘的核心痛点 股民都有同感——每天不只要查询单只股票的实时行情,还