DeepSeek V4价格大幅降低百万token仅需两分钱

首页

热心网友

转载

2026-05-18

昨晚，国内AI圈又被一则消息刷屏了：DeepSeek-V4系列模型，再次祭出“价格屠刀”。

这次降价，瞄准的是“输入缓存命中”这一场景。DeepSeek-V4-Flash和V4-Pro两款模型，其缓存命中后的输入价格，直接被拉低到了首发价的十分之一。具体来看，V4-Flash每百万tokens仅需0.02元，V4-Pro也只要0.025元。

要知道，就在两天前的4月25日晚，DeepSeek-V4-Pro才刚刚宣布过一次“暴降75%”的限时优惠。目前，其缓存未命中的输入价格为每百万tokens 3元，输出为6元。这场价格风暴，将持续到5月5日深夜。

至于V4-Flash，除了这次针对缓存命中的“骨折价”外，其常规价格体系保持不变：缓存未命中的输入价格为1元/百万tokens，输出为2元。

价格优势进一步拉大

这一轮调价之后，DeepSeek在国内大模型市场的价格竞争力，已经变得相当突出。有行业观察者迅速制作了对比表格，将国内几家主流厂商的模型价格放在一起审视，差距一目了然。

▲国内大模型企业模型价格对比表

对于实际使用者而言，这种降价带来的成本削减是实实在在的。有微博用户根据自己过往的使用数据粗略估算，此次调整后，综合成本大约能节省73%。用一位网友的话说，“这感觉，就像是手机流量从5元1G时代，一步跨入了5毛1G的时代。”

市场与开发者的双重反响

如此激进的定价策略，自然引发了广泛猜测。在DeepSeek官方社交账号的推文下，有网友一针见血地指出，这显然是凭借技术优势，在强势抢占市场份额。

更多的声音则来自开发者群体。不少人直言，围绕token缓存的价格战已经正式打响。有开发者感慨“DeepSeek太宠用户了”，并认为眼下正是评估将工作流程从Claude或GPT迁移到DeepSeek的“最佳窗口期”。

另一些评论则着眼于更宏观的产业影响。他们肯定此次降价的意义，认为如此大幅的折扣，将“彻底改变生产级应用的经济格局”。这意味着，过去因成本高昂而难以商业化的创意或工具，现在有了跑通的可能。

综合来看，DeepSeek此次将缓存命中价格压至“地板价”，叠加V4-Pro的限时大幅优惠，再配合其一直坚持的开源策略和长上下文优势，意图非常清晰：快速收拢开发者心智，构筑应用生态护城河。一个直接的信号是，对于广大中小开发团队而言，使用顶级大模型来验证并跑通一个商业模式，门槛正在被急剧拉低。AI应用爆发的“成本堰塞湖”，或许真的到了要泄洪的时刻。

来源:https://www.163.com/dy/article/KRGRVHHE051180F7.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：硅谷ScienceforAI峰会5月举行全球顶尖科学家与企业领袖线下首聚下一篇：VSCode 正式宣布更名升级为 Visual Studio Code

相关攻略

DeepSeek V4构建RAG知识库导入产品手册实现智能问答

想要基于DeepSeek V4构建一个能够精准理解产品手册内容的智能问答系统？这个需求非常贴合企业知识管理的实际场景。直接对大模型进行微调不仅成本高昂、周期漫长，对于需要即时准确响应的内部知识库应用而言，采用检索增强生成（RAG）架构无疑是当前更高效、更实用的技术路径。然而，DeepSeek V4

热心网友

05.17

DeepSeek V4 Pro专家模式开启与推理能力提升进阶指南

想用上DeepSeek最新的V4 Pro版本，体验它那更强的推理能力？你可能已经接入了API，或者在网页端、APP端看到了相关功能，但感觉效果和预期有差距。这很可能是因为你的会话还运行在默认的“快速模式”上。要真正激活那个拥有1 6T参数、采用MoE 4 0架构并具备R1推理增强的深度模型，你需要手

热心网友

05.17

Ollama运行DeepSeek V4显存不足的量化解决方案

当您在Ollama中尝试运行DeepSeek V4模型时，如果遇到进程卡死、无响应或直接报错退出的问题，请不要急于归咎于您的硬件设备。这很可能源于一个关键原因：截至目前，DeepSeek V4模型尚未在Ollama的官方模型库中正式发布。更重要的是，其公开发布的原始权重格式（通常是Hugging F

热心网友

05.17

DeepSeek V4模型转换为AWQ格式的完整教程

将DeepSeek V4的原始PyTorch权重转换为AWQ格式，是在有限显存条件下实现低延迟、高精度推理的成熟方案。AWQ（激活感知权重量化）的核心原理非常巧妙：它并非对所有参数进行均等压缩，而是通过分析模型在前向传播中的激活分布，精准识别并保留对输出结果影响最显著的“关键权重”。这种方法使得模型

热心网友

05.17