DeepSeek V4下周上线!原生多模态架构技术报告同步公开
据金融时报近日消息,DeepSeek即将在下周正式推出其最新一代大模型V4。

据知情人士透露,这是一款具备图像、视频和文本生成能力的多模态模型。在硬件适配方面,DeepSeek将为国产算力提供深度支持,致力于优化V4模型以适配中国制造的芯片,此举有望提振中国市场对半导体产品的需求,并加速AI模型推理环节向本土芯片靠拢。
一位直接了解相关计划的人士透露,DeepSeek预计在发布V4版本的同时,会发布一份篇幅较短的技术说明,并在大约一个月后发布一份更全面的报告。
V4会有哪些亮点?
截至发稿,DeepSeek尚未对V4的任何信息进行正式回应或确认,所有信息均来自媒体爆料,详细信息多集中在正在进行秘密测试的简化版本V4 Lite上。据悉,关于V4 Lite:
其代号为"sealion-lite",拥有100万个tokens的上下文窗口,相比V3系列的128K有近8倍提升,理论上可一次性处理如《三体》全集体量的长文本;
采用原生多模态架构,意味着模型从预训练阶段就将文本与视觉理解融合,而非后期拼接;
V4 Lite参数规模估算为2000亿,另有推测认为完整版V4参数量可能突破1万亿;
效果显著优于网页端/APP端模型;
泄露的测试示例显示,V4 Lite能用极简代码生成高质量的SVG图像,在代码优化和视觉还原度上被认为超越了DeepSeek V3.2、Claude Opus 4.6等模型,这暗示了其空间推理和结构化输出能力的提升。
回顾DeepSeek的模型迭代之路
DeepSeek已"蛰伏"超一年,其上次重大更新——R1发布于2025年1月20日。
回顾DeepSeek的模型迭代历程,该公司的优化路径十分清晰——提升推理能力、平衡模型性能与推理效率,为大模型"降本"。
DeepSeek已发布的主要模型是两条技术路线的代表:追求综合性能的V系列"全能助手"和专注于复杂推理的R系列"解题专家"。
2024年5月,DeepSeek V2发布,被视为DeepSeek的重大突破,其研究团队提出了多头潜在注意力机制,大幅降低推理时的显存占用和成本,以极低的推理费用出圈,确立了混合专家模型的技术路线。
2024年12月推出的V3是DeepSeek的重要里程碑,其高效的MoE架构确立了强大的综合性能基础。此后,V3系列通过小版本更新不断打磨,持续提升用户体验和模型Agent能力。
其中,2025年8月发布的DeepSeek-V3.1,是一个里程碑式的更新,将V3和R1的能力融合到一个模型中,支持思考模式和非思考模式的自由切换,在SWE-bench等基准上比前代提升超40%;2025年12月推出的V3.2,是DeepSeek将深度思考与工具使用无缝融合的版本,推理能力达到GPT-5水平,在H800集群上,128K序列长度的推理成本显著降低:预填充阶段每百万token成本从0.7美元降至0.2美元,解码阶段从2.4美元降至0.8美元,这一定价使其成为当时同级别模型中长文本推理成本最低的选择之一。
2025年1月发布的R1,是其首代专用推理模型,证明通过大规模强化学习能激发模型的推理能力,通过强化学习,该模型在解决数学问题、代码编程等复杂推理任务上表现卓越,并首创了"深度思考"模式,性能对标OpenAI强模型o1,但推理成本仅为约560万美元不到其十分之一。
可以看出,在大家等待V4期间,DeepSeek一直没有停下脚步,另外,其在多模态能力上的布局比V4更早。从技术演进来看,DeepSeek早在2024年的V3系列和2024年的V2版本中就已经开始布局和实现多模态能力。2025年初发布的Janus系列更是专门的、功能强大的多模态模型。
相关攻略
你是否希望在本地命令行和VSCode中,拥有一款能够协助编程、分析问题的AI助手?本文将详细指导你完成一套高效组合方案的部署:安装Claude Code,并将其接入目前性能卓越的DeepSeek V4 pro模型,最终实现在VSCode中的无缝集成与应用。整个过程每一步都配有详细截图,确保你能轻松跟
你观察到的这个现象确实非常有趣,也引发了广泛的讨论。让我从技术角度为你详细解析一下背后的原因: 核心原理:对话模板与特殊Token的运作机制 1 对话模板的工作原理 当你与DeepSeek对话时,系统并不是直接将你的原始输入传给模型。实际上,它会将你的输入包装成一个结构化的对话格式:
DeepSeek V4的发布时间一再推迟,从最初预期的春节档期延后至四月,社区内“狼来了”的讨论声不绝于耳。面对OpenAI与Anthropic近乎“月更”式的激烈竞争,DeepSeek的“慢节奏”究竟是技术掉队的信号,还是在酝酿一场颠覆性的技术突破?这或许将决定其能否守住国产大模型的领先地位。 3
Token正在重塑AI时代的价值坐标,它是效率革命的引擎,还是成本失控的暗礁?本期将从Token降本的视角,透视AI时代“新石油”的经济逻辑。 最近关于Token的讨论,氛围有些微妙。朋友圈里随处可见对其中文译名的探讨——“词元”、“智元”各执一词,甚至出现了“慧根”这类颇具禅意的幽默版本。 Tok
5月14日,DeepSeek“专家模式”因资源紧张暂时关闭文件上传功能,网页端和App均受影响,但“快速模式”的文件与图片上传仍正常。同时,部分用户可灰度测试历史聊天记录检索功能,支持关键词查找过往对话。专家模式于4月8日推出,侧重深度思考与联网搜索;快速模式响应迅捷,适用于日常问答。
热门专题
热门推荐
领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。
英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。
微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4
中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。
手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭





