首页 游戏 软件 资讯 排行榜 专题
首页
AI
DeepSeek V4 API正式上线 双版本支持百万上下文

DeepSeek V4 API正式上线 双版本支持百万上下文

热心网友
72
转载
2026-05-18


百万字上下文,从此成为普惠标配。

万众期待之下,DeepSeek V4预览版,终于揭开了面纱。两个版本——V4-Pro与V4-Flash,全系标配百万字(1M)超长上下文,并同步开源了模型权重与技术报告。

五一假期前的这两天,大模型领域再次迎来密集发布潮。

就在前一天,腾讯混元Hy3预览版亮相,凭借2950亿参数的MoE架构与极具竞争力的价格,展示了其在规模化商用上的野心。紧接着,OpenAI面向付费用户上线了GPT-5.5,并官宣了API计划,主打Agent工作流,同时将上下文窗口拉升至百万tokens,定价也随之水涨船高。

表面上看,三家的路径各有侧重:OpenAI坚守高端闭源路线,不断抬高能力与价格的天花板;腾讯将模型深度融入自家生态,试图以性价比撬动市场;而DeepSeek则延续了开源普惠的传统,并将长上下文能力推向了新的临界点。

然而,一个共同的趋势也清晰浮现:Agent能力、超长上下文、代码与工具调用,这三个关键词在最新发布的模型中反复出现。行业的竞争焦点,正从单纯的“智力比拼”,转向谁能更稳定、更高效地处理复杂任务,真正嵌入工作流中“干活”。

DeepSeek V4的“实用主义”

DeepSeek此次发布,最核心的动作是将百万字上下文从“高端选配”变成了“基础标配”。在此之前,处理如此长的文本,往往是少数闭源旗舰模型的专属能力,其高昂的调用成本让大多数开发者和企业望而却步。

DeepSeek的策略非常明确:V4-Pro和V4-Flash两个版本,全部标配1M上下文长度。前者锚定极致性能,后者主打普惠经济,完整覆盖了从高端到轻量化的不同需求。这种“无差别下放核心能力”的做法,本质上是彻底降低了长文本处理能力的行业门槛。


其中,Flash版本瞄准的是极致低延迟与高性价比场景。它通过13B的激活参数、创新的token压缩注意力机制与DSA稀疏注意力架构优化,在保障接近Pro版核心推理能力的同时,实现了极快的响应速度。这对于实时对话、函数调用流水线等所有对响应速度敏感的场景而言,意味着体验上的本质提升。

更关键的是其极具竞争力的成本结构。根据官方API定价,Flash版本采用阶梯计费:缓存命中的输入token低至0.2元/百万tokens,即便缓存未命中,输入成本也仅为1元/百万tokens,输出定价为2元/百万tokens。


如此亲民的定价,叠加全系标配的百万字上下文,使得“单次调用成本”不再成为工程设计的核心约束。开发者可以更专注于产品体验与架构设计,而无需在调用次数与费用之间反复权衡。

如果说Flash解决的是“用得起、用得快”的普惠需求,那么V4-Pro则在回答另一个问题:开源大模型的能力边界,究竟还能被推到多高。

最直观的跃升依然是长上下文。模型上下文长度从上一代V3.2的128K,直接拉升至1M。配合底层架构的创新,它在大幅降低长上下文计算与显存需求的同时,保障了全窗口的性能无损。这意味着,开发者可以直接导入完整的代码库、超长行业文档或多轮项目档案进行端到端处理,无需额外搭建复杂的检索增强生成(RAG)系统,技术链路被大幅简化。

在底层架构上,Pro版本采用了总参数1.6T、激活参数49B的MoE架构,预训练数据量达33T。最新评测数据显示,其在数学、STEM、竞赛级代码等核心推理测评中,超越了当前所有已公开评测的开源模型,达到了比肩世界顶级闭源模型的水平。在Agent能力上,其交付质量已接近Claude Opus 4.6的非思考模式,内部反馈优于Anthropic Sonnet 4.5,成为了团队内部的主力Agentic Coding工具。

功能层面,V4全系列均同时支持非思考模式与思考模式,开发者可通过参数自定义思考强度,并全量支持Json输出、工具调用等能力。定价方面,Pro版本同样延续高性价比路线,显著低于海外同级别闭源模型。

API接入也做到了极致低门槛,开发者无需修改原有基础地址,仅需替换模型名称即可完成接入,同时兼容OpenAI与Anthropic两种主流接口格式。

这种“能力上探”与“成本下探”的组合拳,让顶级的大模型能力不再是少数厂商的专属资源。当行业竞争一度陷入参数军备竞赛的怪圈时,DeepSeek用全系标配百万上下文、全链路开源开放的选择,为AI的普惠化提供了一个新的范本。

继续开源,API全量开放

DeepSeek再次明确了其开源路线的决心,并直接全量开放了API调用。

目前,DeepSeek-V4的模型权重已同步在Hugging Face、ModelScope等平台开放下载,配套的技术报告也一并公开,支持开发者进行本地部署与二次开发。

值得注意的是,与部分厂商“开源阉割版,闭源完整版”的行业惯例不同,本次开源的两个版本,完整保留了与最新云端API一致的全量能力——包括非思考/思考双模式、百万字超长上下文无损处理、Agent专项优化与全量工具调用能力,没有任何功能上的缩水。

这意味着,无论是中小创业公司、个人开发者还是科研机构,都能零门槛获取到具备百万上下文、顶级推理与Agent能力的大模型底座,无需再为高端模型能力支付高额的闭源接口费用。

为了进一步降低落地门槛,DeepSeek同步开源了模型微调、量化、推理加速的全流程工具链,并完成了对vLLM、TGI等主流推理框架,以及LangChain、LlamaIndex等主流Agent框架的“Day 0”原生适配。同时,也开放了国产算力平台的全栈部署方案,确保开发者在不同硬件环境下都能快速落地应用。

此外,官方也给出了清晰的模型迭代过渡方案:旧有的API接口模型名将于三个月后停止使用,当前阶段它们已自动指向新版本,为开发者留出了充足的平滑迁移时间。

坚定做AI“基建模型”

将这两天的密集发布连起来看,一个趋势已经非常明确:各家都在加速押注Agent能力。

过去两年,公众和资本市场对大模型的关注,很大程度上集中在模型的“聪明程度”。但现在,焦点已经转向了“谁更能稳定地把事情做完”。GPT-5.5的发布重点不在于多模态理解又提升了多少,而在于其在Agent编程、计算机使用等场景中的持续执行能力。腾讯混元Hy3的核心卖点也在于其在现实世界中的“行动能力”。DeepSeek V4则直接把Agent能力和长上下文处理作为主打,目标明确地指向实际工作负载。

这种转变的背后,是整个行业正在走向“模型效用”的竞争。用户和企业客户越来越不关心模型在某项评测里排第几,他们关心的是:这个模型到底能帮自己干好多少活儿?能不能稳定处理复杂文档?能不能在多步骤任务里不出错?能不能以合理的成本跑起来?


在本次发布的文末,DeepSeek引用了《荀子》中的一句话:“不诱于誉,不恐于诽,率道而行,端然正己”,以此锚定自身的技术路线。放在当下激烈的大模型竞争语境中,这句话的意味很明确——不被外界的评价和噪音干扰,专注于把事情做对。

回顾DeepSeek过去一年多的行动,确实在践行这一逻辑:用开源开放建立全球开发者生态影响力,用极致的性价比打破高端AI能力的使用壁垒,用扎实的底层架构创新解决开发者与企业用户最真实的痛点。

从R1推理模型的横空出世,到V4将长上下文能力第一次推向普惠区间,DeepSeek一直在用一种相对“慢”的方式,做一件更难的事:把顶级模型能力,从少数人的工具,变成更多人可以直接调用的基础设施。

来源:https://www.163.com/dy/article/KR9HINAI05119FMA.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

DeepSeek V4构建RAG知识库导入产品手册实现智能问答
AI
DeepSeek V4构建RAG知识库导入产品手册实现智能问答

想要基于DeepSeek V4构建一个能够精准理解产品手册内容的智能问答系统?这个需求非常贴合企业知识管理的实际场景。直接对大模型进行微调不仅成本高昂、周期漫长,对于需要即时准确响应的内部知识库应用而言,采用检索增强生成(RAG)架构无疑是当前更高效、更实用的技术路径。 然而,DeepSeek V4

热心网友
05.17
DeepSeek V4 Pro专家模式开启与推理能力提升进阶指南
AI
DeepSeek V4 Pro专家模式开启与推理能力提升进阶指南

想用上DeepSeek最新的V4 Pro版本,体验它那更强的推理能力?你可能已经接入了API,或者在网页端、APP端看到了相关功能,但感觉效果和预期有差距。这很可能是因为你的会话还运行在默认的“快速模式”上。要真正激活那个拥有1 6T参数、采用MoE 4 0架构并具备R1推理增强的深度模型,你需要手

热心网友
05.17
Ollama运行DeepSeek V4显存不足的量化解决方案
AI
Ollama运行DeepSeek V4显存不足的量化解决方案

当您在Ollama中尝试运行DeepSeek V4模型时,如果遇到进程卡死、无响应或直接报错退出的问题,请不要急于归咎于您的硬件设备。这很可能源于一个关键原因:截至目前,DeepSeek V4模型尚未在Ollama的官方模型库中正式发布。更重要的是,其公开发布的原始权重格式(通常是Hugging F

热心网友
05.17
DeepSeek V4模型转换为AWQ格式的完整教程
AI
DeepSeek V4模型转换为AWQ格式的完整教程

将DeepSeek V4的原始PyTorch权重转换为AWQ格式,是在有限显存条件下实现低延迟、高精度推理的成熟方案。AWQ(激活感知权重量化)的核心原理非常巧妙:它并非对所有参数进行均等压缩,而是通过分析模型在前向传播中的激活分布,精准识别并保留对输出结果影响最显著的“关键权重”。这种方法使得模型

热心网友
05.17
DeepSeek V4 GGUF模型量化与LlamaCpp本地部署指南
AI
DeepSeek V4 GGUF模型量化与LlamaCpp本地部署指南

手头已经下载了DeepSeek V4的模型文件,但在llama cpp中直接加载却无法运行?这通常是因为模型尚未转换为llama cpp兼容的GGUF格式,或者没有针对您的硬件配置进行适当的量化优化。别担心,按照以下系统化的操作流程,您就能顺利解决这一问题。 一、确认模型原始格式并获取适配分支 目前

热心网友
05.17

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

斯柯达晶锐Fabia Motorsport特别版车型正式发布
业界动态
斯柯达晶锐Fabia Motorsport特别版车型正式发布

为庆祝品牌投身赛车运动整整125年,斯柯达正式推出了晶锐Fabia Motorsport Edition特别版。这款车基于Fabia 130打造,设计灵感直接来源于征战赛场的Fabia RS Rally2拉力赛车,整体风格充满了对赛事历史的致敬意味。不过,得先说明白,它的升级重点主要落在了外观和底盘

热心网友
05.18
灰度以太坊质押ETF持仓超10万枚ETH 价值2.37亿美元
web3.0
灰度以太坊质押ETF持仓超10万枚ETH 价值2.37亿美元

Grayscale 通过其以太坊质押 ETF 质押了 102,400 个 ETH,价值 2 37 亿美元 先来看一组数据:资产管理巨头 Grayscale 最近通过其以太坊质押 ETF,一口气质押了超过10万个 ETH,价值约2 37亿美元。这个动作本身不小,但更有意思的是市场的后续反应——或者说,

热心网友
05.18
劳斯莱斯库里南防弹版发布 Inkas打造隐形防护座驾
业界动态
劳斯莱斯库里南防弹版发布 Inkas打造隐形防护座驾

劳斯莱斯库里南自问世以来,始终是超豪华全尺寸SUV领域的标杆。对于追求极致安全又不愿牺牲低调气质的高净值人士而言,如何实现“隐形”的顶级防护,一直是核心诉求。如今,加拿大专业防弹车制造商Inkas,以一款近乎“零痕迹”改装的库里南,给出了完美解决方案——一座移动的“隐形堡垒”。 区别于常见的外露装甲

热心网友
05.18
GTA5与荒野大镖客2高清复刻版或将登陆Switch平台
游戏资讯
GTA5与荒野大镖客2高清复刻版或将登陆Switch平台

新加坡维塔士工作室正考虑将《侠盗猎车手V》与《荒野大镖客:救赎2》移植至任天堂Switch平台。该团队拥有丰富的移植经验,曾成功负责多款游戏的跨平台适配。这两款作品全球销量巨大,若能登陆Switch,其便携特性可能成为新的市场增长点。

热心网友
05.18
大众ID. Polo GTI全球首发亮相 高尔夫GTI刷新纽北赛道纪录
业界动态
大众ID. Polo GTI全球首发亮相 高尔夫GTI刷新纽北赛道纪录

当高尔夫GTI迎来五十周年里程碑,传奇的纽博格林北环赛道成为其致敬历史与展望未来的最佳舞台。这里不仅铭刻了燃油性能图腾的巅峰时刻,也正式开启了电动GTI的新纪元。近日,大众汽车正式宣布,高尔夫GTI 50周年版在纽北创下全新纪录,荣膺最快前驱量产车称号;与此同时,品牌首款纯电动GTI车型——ID

热心网友
05.18