四张2080Ti 22G本地部署DeepSeek 671B满血版

类型：热点整理2026-07-04

用四张2080Ti及E5旧硬件组成88GB显存，在Ubuntu上通过Ollama运行404GB的DeepSeek-R1671B量化版模型，实测约2 18tokens s，成本1 5万元，并借助Dify和cpolar实现远程访问。

不少用户在使用 DeepSeek 官网或 App 时，常会看到“服务器繁忙”的提示。这也促使越来越多的人开始探索本地部署方案——不过，想要运行满血版 671B 模型，高昂的硬件成本让许多人望而却步。我尝试采用一套更具性价比的配置来迎接这一挑战，最终成功在个人 PC 上部署了 DeepSeek R1 671B 的满血量化版 Q4 模型，总成本控制在 1.5 万元左右，实测生成速度约 2.18 tokens/s，基本满足日常使用。下面将详细介绍具体的配置清单与调优过程。

挑战4张2080Ti22G跑本地部署的DeepSeek 671b满血版大模型

前言

关于不同版本 DeepSeek 的参数量与本地部署要求，可参考下方图表（此处保留原文图片）。为帮助读者更直观理解满血版与蒸馏版的性能差异，我决定以更低成本进行一次部署挑战。

（原文图片描述位置保留）

（原文第二张图片描述位置保留）

1. 硬件配置

服务器：技嘉 X99
CPU：单路 E5-2673v4
显卡：2080Ti 22G * 4
内存：512G
机箱：工作站全塔机箱
电源：1200W

这套配置的设计思路是利用高性价比的老硬件堆叠显存容量——四块 22G 显存的 2080Ti，总显存达到 88G，再搭配 512G 系统内存作为缓冲，可较为从容地加载体积达 404GB 的量化模型。

（原文此处有一张硬件展示图片）

2. 软件配置

操作系统：Ubuntu 22.04.5
本地大模型运行工具：Ollama

curl -fsSL https://ollama.com/install.sh | sh

本次部署选用的是 DeepSeek R1 671B 满血量化版，模型文件大小约为 404GB：

ollama run deepseek-r1:671b

3. 调优配置

若按默认方式安装并运行 Ollama，加载此大模型时很可能出现内存溢出错误。因此需调整若干关键参数，防止因显存不足导致系统崩溃，同时允许操作系统内存作为显存的有效补充。另外，由于同时启用四张显卡，还需在初始化时加入 10 秒延迟，确保所有显卡在 Ollama 加载前完成初始化。

ExecStartPre=sleep 10

Environment="OLLAMA_HOST=0.0.0.0"

Environment="GGML_CUDA_ENABLE_UNIFIED_MEMORY=1"

（原文此处有一张配置截图）

4. 实际运行效果

通过 SSH 登录服务器后，首先查看 Ollama 环境下的已下载模型列表：

ollama list

可以看到 deepseek-r1:671b 满血全量模型已准备就绪，文件大小为 404GB。

运行模型：

ollama run deepseek-r1:671b

进入交互界面后，设置输出明细信息：

/set verbose

模型加载可能需要稍等片刻，加载完成后直接提问，即可查看实际的运行速率。

（原文此处有两张运行截图）

5. 安装 dify 服务

若希望在网页端与 DeepSeek 大模型进行交互，可通过 Docker 部署 Dify 服务来实现。首先安装 Docker：

sudo curl -fsSL https://gitee.com/tech-shrimp/docker_installer/releases/download/latest/linux.sh | bash -s docker --mirror Aliyun

接着克隆 Dify 源代码：

git clone https://github.com/langgenius/dify.git

进行环境配置：

cd dify/docker
cp .env.example .env

启动容器：

sudo docker compose up -d

Dify 接入 Ollama：

登录 Dify 主界面后，依次进入“设置”→“模型供应商”→“Ollama”，填写模型名称、基础 URL 等参数，并开启 Vision 支持后保存。

（原文此处有两张配置截图）

返回主界面，创建空白应用，选择 deepseek-r1:671b 模型，在文本框中编辑文字即可开始对话。

（原文此处有一张对话界面截图）

6. 安装内网穿透远程访问

若希望其他设备能在不同网络环境下远程访问本地部署的 DeepSeek R1 671B，可利用 cpolar 实现内网穿透。

sudo curl https://get.cpolar.sh | sh

安装完成后检查 cpolar 服务状态：

sudo systemctl status cpolar

（原文此处有一张状态截图）

cpolar 安装并启动服务后，在浏览器中输入 Ubuntu 主机 IP 加 9200 端口（http://localhost:9200），登录 cpolar 管理界面：

点击左侧仪表盘的“隧道管理”→“创建隧道”：

隧道名称：可自定义（例如 dify）
协议：http
本地地址：80
域名类型：随机域名
地区：选择 China Top

点击创建。

（原文此处有一张创建隧道截图）

创建成功后，在左侧“在线隧道列表”中会生成两个公网地址。在其他电脑上使用任意一个网址即可通过浏览器访问。

（原文此处有一张在线隧道列表截图）

需要说明的是，cpolar 生成的随机公网地址适合临时使用，24 小时内会发生变化。对于需要长期稳定远程访问的场景，建议配置固定的二级子域名，不仅带宽更高，地址也更容易记忆。

配置固定 Dify 公网地址

注意：配置固定子域名需使用 cpolar 基础套餐或以上版本（不同套餐对应不同带宽）。登录 cpolar 官网，点击左侧“预留”→“保留二级子域名”，地区选择“China VIP”，设置子域名名称并填写备注信息，点击保留。

（原文此处有一张官网配置截图）

返回 cpolar Web UI 管理界面，点击左侧仪表盘的“隧道管理”→“隧道列表”，找到 dify 隧道并点击编辑。

修改隧道信息：

域名类型：选择“二级子域名”
Sub Domain：填写已成功保留的二级子域名
地区：China VIP

点击更新。

（原文此处有一张编辑隧道截图）

更新完成后，在线隧道列表中原有的随机地址即变为固定的二级子域名地址。

（原文此处有一张更新后的隧道列表截图）

使用固定的公网地址访问 Dify 界面，可以看到访问成功。如此一来，团队协作时可将该地址分享给同事，无需每个人都重新部署，大大提升了工作效率。

（原文此处有一张访问成功的截图）

总结

本次挑战利用多款上市多年但依然具有出色性价比的旧硬件，成功实现了在个人 PC 上部署 DeepSeek 满血版大模型的目标。同时，配合 cpolar 内网穿透工具，可将本地服务发布至公网，方便朋友或同事远程访问，既避免了重复部署的麻烦，也有效绕开了 DeepSeek 官方服务的拥堵问题。

目前我们正在测试新的部署方案，旨在进一步提升每秒 tokens 生成速率，同时继续降低硬件投入成本。如果在本地配置过程中遇到任何问题，欢迎随时交流。

来源：https://www.53ai.com/news/finetuning/2025032040678.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。