游乐游手机版
首页/AI热点日报/热点详情

DeepSeek R1 671B单机测试:250万设备每秒输出3500Token

类型:热点整理2026-06-30
DeepSeek R1 到底值不值得自己部署?单机推理性能与真实成本揭秘 最近 DeepSeek 官网动不动就卡到像播放幻灯片,想流畅体验满血版 R1,体验确实令人头疼。好在市面上已经出现不少平替方案——如果你不需要联网搜索,直接调用 API 也能凑合,但要留意,缺少 2024 年之后的实时数据,输

DeepSeek R1 到底值不值得自己部署?单机推理性能与真实成本揭秘

最近 DeepSeek 官网动不动就卡到像播放幻灯片,想流畅体验满血版 R1,体验确实令人头疼。好在市面上已经出现不少平替方案——如果你不需要联网搜索,直接调用 API 也能凑合,但要留意,缺少 2024 年之后的实时数据,输出质量会有所下降,除非你提的问题完全与时效性无关。若需要联网搜索,几款国产 AI 搜索平台已升级支持 DeepSeek R1,薅羊毛的机会还是相当划算的。

DeepSeek R1 671B 单机测试报告,250万的机器每秒3500Tokens

不过有一个问题始终让人好奇:大家如此热衷接入 DeepSeek R1 满血版,如果自己搭建一套本地环境,成本究竟有多高?网上恰好有一份详细的单机测试报告,为我们揭开了答案。

官方 R1 的输出定价为 16 元/百万 tokens,据此推算,一台机器每小时约产出 12.6M tokens,理论上每小时收入上限大约在 200 元左右。但别忘了,这可是一台 8 卡机器每小时的费用,粗略一看似乎会亏本。

不少平台为了适配国产 310B 卡,据说只能运行 FP16 精度,而 DeepSeek R1 原生使用的是 FP8,这样一来显存需求量直接翻倍,进一步加剧了成本压力。

具体到上面提到的 AMD 新机器,当并发压力拉满时,每路每秒输出不到 2 个 token。难怪很多接入 R1 满血版的 API,调用时感觉像挤牙膏——每秒才蹦出两三个字。估计还是并发负载过大。这个输出速度,几乎和本地用 CPU 运行最小 1.5B 蒸馏版差不多,简直让人哭笑不得。

此外,基于 Electron 开发的桌面 AI 客户端 Cherry Studio,特别适合那些喜欢在不同大模型之间反复切换的“海王”——用它来评估各家平台上 DeepSeek R1 的表现会非常方便。

目前处于免费试用期的 DeepSeek R1,在上述大部分平台上体验仍旧偏卡顿,应该是并发的流量控制做得还不够到位。如果你的应用场景对响应延时要求较高,选择服务商时还需要仔细甄别。

来源:https://www.53ai.com/news/LargeLanguageModel/2025021663417.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。