DeepSeek V4 API正式上线双版本支持百万上下文

首页

热心网友

转载

2026-05-18

百万字上下文，从此成为普惠标配。

万众期待之下，DeepSeek V4预览版，终于揭开了面纱。两个版本——V4-Pro与V4-Flash，全系标配百万字（1M）超长上下文，并同步开源了模型权重与技术报告。

五一假期前的这两天，大模型领域再次迎来密集发布潮。

就在前一天，腾讯混元Hy3预览版亮相，凭借2950亿参数的MoE架构与极具竞争力的价格，展示了其在规模化商用上的野心。紧接着，OpenAI面向付费用户上线了GPT-5.5，并官宣了API计划，主打Agent工作流，同时将上下文窗口拉升至百万tokens，定价也随之水涨船高。

表面上看，三家的路径各有侧重：OpenAI坚守高端闭源路线，不断抬高能力与价格的天花板；腾讯将模型深度融入自家生态，试图以性价比撬动市场；而DeepSeek则延续了开源普惠的传统，并将长上下文能力推向了新的临界点。

然而，一个共同的趋势也清晰浮现：Agent能力、超长上下文、代码与工具调用，这三个关键词在最新发布的模型中反复出现。行业的竞争焦点，正从单纯的“智力比拼”，转向谁能更稳定、更高效地处理复杂任务，真正嵌入工作流中“干活”。

DeepSeek V4的“实用主义”

DeepSeek此次发布，最核心的动作是将百万字上下文从“高端选配”变成了“基础标配”。在此之前，处理如此长的文本，往往是少数闭源旗舰模型的专属能力，其高昂的调用成本让大多数开发者和企业望而却步。

DeepSeek的策略非常明确：V4-Pro和V4-Flash两个版本，全部标配1M上下文长度。前者锚定极致性能，后者主打普惠经济，完整覆盖了从高端到轻量化的不同需求。这种“无差别下放核心能力”的做法，本质上是彻底降低了长文本处理能力的行业门槛。

其中，Flash版本瞄准的是极致低延迟与高性价比场景。它通过13B的激活参数、创新的token压缩注意力机制与DSA稀疏注意力架构优化，在保障接近Pro版核心推理能力的同时，实现了极快的响应速度。这对于实时对话、函数调用流水线等所有对响应速度敏感的场景而言，意味着体验上的本质提升。

更关键的是其极具竞争力的成本结构。根据官方API定价，Flash版本采用阶梯计费：缓存命中的输入token低至0.2元/百万tokens，即便缓存未命中，输入成本也仅为1元/百万tokens，输出定价为2元/百万tokens。

如此亲民的定价，叠加全系标配的百万字上下文，使得“单次调用成本”不再成为工程设计的核心约束。开发者可以更专注于产品体验与架构设计，而无需在调用次数与费用之间反复权衡。

如果说Flash解决的是“用得起、用得快”的普惠需求，那么V4-Pro则在回答另一个问题：开源大模型的能力边界，究竟还能被推到多高。

最直观的跃升依然是长上下文。模型上下文长度从上一代V3.2的128K，直接拉升至1M。配合底层架构的创新，它在大幅降低长上下文计算与显存需求的同时，保障了全窗口的性能无损。这意味着，开发者可以直接导入完整的代码库、超长行业文档或多轮项目档案进行端到端处理，无需额外搭建复杂的检索增强生成（RAG）系统，技术链路被大幅简化。

在底层架构上，Pro版本采用了总参数1.6T、激活参数49B的MoE架构，预训练数据量达33T。最新评测数据显示，其在数学、STEM、竞赛级代码等核心推理测评中，超越了当前所有已公开评测的开源模型，达到了比肩世界顶级闭源模型的水平。在Agent能力上，其交付质量已接近Claude Opus 4.6的非思考模式，内部反馈优于Anthropic Sonnet 4.5，成为了团队内部的主力Agentic Coding工具。

功能层面，V4全系列均同时支持非思考模式与思考模式，开发者可通过参数自定义思考强度，并全量支持Json输出、工具调用等能力。定价方面，Pro版本同样延续高性价比路线，显著低于海外同级别闭源模型。

API接入也做到了极致低门槛，开发者无需修改原有基础地址，仅需替换模型名称即可完成接入，同时兼容OpenAI与Anthropic两种主流接口格式。

这种“能力上探”与“成本下探”的组合拳，让顶级的大模型能力不再是少数厂商的专属资源。当行业竞争一度陷入参数军备竞赛的怪圈时，DeepSeek用全系标配百万上下文、全链路开源开放的选择，为AI的普惠化提供了一个新的范本。

继续开源，API全量开放

DeepSeek再次明确了其开源路线的决心，并直接全量开放了API调用。

目前，DeepSeek-V4的模型权重已同步在Hugging Face、ModelScope等平台开放下载，配套的技术报告也一并公开，支持开发者进行本地部署与二次开发。

值得注意的是，与部分厂商“开源阉割版，闭源完整版”的行业惯例不同，本次开源的两个版本，完整保留了与最新云端API一致的全量能力——包括非思考/思考双模式、百万字超长上下文无损处理、Agent专项优化与全量工具调用能力，没有任何功能上的缩水。

这意味着，无论是中小创业公司、个人开发者还是科研机构，都能零门槛获取到具备百万上下文、顶级推理与Agent能力的大模型底座，无需再为高端模型能力支付高额的闭源接口费用。

为了进一步降低落地门槛，DeepSeek同步开源了模型微调、量化、推理加速的全流程工具链，并完成了对vLLM、TGI等主流推理框架，以及LangChain、LlamaIndex等主流Agent框架的“Day 0”原生适配。同时，也开放了国产算力平台的全栈部署方案，确保开发者在不同硬件环境下都能快速落地应用。

此外，官方也给出了清晰的模型迭代过渡方案：旧有的API接口模型名将于三个月后停止使用，当前阶段它们已自动指向新版本，为开发者留出了充足的平滑迁移时间。

坚定做AI“基建模型”

将这两天的密集发布连起来看，一个趋势已经非常明确：各家都在加速押注Agent能力。

过去两年，公众和资本市场对大模型的关注，很大程度上集中在模型的“聪明程度”。但现在，焦点已经转向了“谁更能稳定地把事情做完”。GPT-5.5的发布重点不在于多模态理解又提升了多少，而在于其在Agent编程、计算机使用等场景中的持续执行能力。腾讯混元Hy3的核心卖点也在于其在现实世界中的“行动能力”。DeepSeek V4则直接把Agent能力和长上下文处理作为主打，目标明确地指向实际工作负载。

这种转变的背后，是整个行业正在走向“模型效用”的竞争。用户和企业客户越来越不关心模型在某项评测里排第几，他们关心的是：这个模型到底能帮自己干好多少活儿？能不能稳定处理复杂文档？能不能在多步骤任务里不出错？能不能以合理的成本跑起来？