Ollama部署DeepSeek-R1 70B模型完整教程

类型：热点整理2026-06-29

部署一个70B参数的DeepSeek-R1大模型看似复杂，实则流程清晰，仅需几个关键步骤。从模型文件下载到启动服务并实现远程访问，每个环节都有成熟的工具和配置方法。下文将逐步拆解，助您快速上手。 Ollama部署DeepSeek-R1 70B大模型完整指南一、模型下载与准备 1 获取GGUF格式

部署一个70B参数的DeepSeek-R1大模型看似复杂，实则流程清晰，仅需几个关键步骤。从模型文件下载到启动服务并实现远程访问，每个环节都有成熟的工具和配置方法。下文将逐步拆解，助您快速上手。

Ollama部署DeepSeek-R1 70B大模型完整指南

一、模型下载与准备

1. 获取GGUF格式模型文件

推荐通过ModelScope平台直接获取已量化处理的GGUF模型文件。选择Q5_K_M量化级别是平衡性能与资源消耗的明智之选——在保持约94%精度的同时，将模型体积压缩至49GB，对存储和内存要求更为友好。

pip install modelscope
modelscope download --model unsloth/DeepSeek-R1-Distill-Llama-70B-GGUF DeepSeek-R1-Distill-Llama-70B-Q5_K_M.gguf --local_dir  /DeepSeek-R1-Distill-Llama-70B-GGUF

_{技术说明：GGUF（GPT-Generated Unified Format）是一种专为大语言模型设计的跨平台格式，支持CPU/GPU混合推理，尤其适合在Apple Silicon设备或纯CPU环境下运行。Q5_K_M量化策略在保留约94%模型精度的同时，将文件体积压缩至49GB，实现存储与性能的最佳平衡。}

二、Ollama环境配置

1. 安装Ollama推理框架

Ollama的安装极为简便，仅需一行命令即可完成。根据官方文档指引，执行以下脚本即可快速部署：

curl -fsSL https://ollama.com/install.sh | sudo sh

2. 配置远程访问（可选）

若需在局域网内其他设备上访问模型服务，需修改Ollama启动参数。执行以下命令编辑系统服务文件：

sudo nano /etc/systemd/system/ollama.service

在[Service]块里添加两行环境变量：

Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"

然后刷新服务配置并重启：

sudo systemctl daemon-reload
sudo systemctl restart ollama

三、模型配置文件编写

模型文件准备好后，需编写Modelfile以指导Ollama如何加载模型。关键配置包括GGUF文件路径、对话模板（template）以及若干运行时参数。以下是一个可直接使用的模板范例：

# 这里填入gguf文件路径
FROM /home/DeepSeek-R1-Distill-Llama-70B-GGUF/DeepSeek-R1-Distill-Llama-70B-Q5_K_M.gguf

# 以下为模型模板配置
TEMPLATE """{{- if .System }}{{ .System }}{{ end }}
{{- range $i, $_ := .Messages }}
{{- $last := eq (len (slice $.Messages $i)) 1}}
{{- if eq .Role "user" }}<｜begin▁of▁sentence｜>{{ .Content }}
{{- else if eq .Role "assistant" }}<｜end▁of▁sentence｜>{{ .Content }}{{- if not $last }}<｜end▁of▁sentence｜>{{- end }}
{{- end }}
{{- if and $last (ne .Role "assistant") }}<｜end▁of▁sentence｜>{{- end }}
{{- end }}"""

PARAMETER stop "<｜end▁of▁sentence｜>"
PARAMETER stop "<｜begin▁of▁sentence｜>"
PARAMETER stop "用户："
PARAMETER stop "助手："

PARAMETER num_ctx 12800

_{参数说明：

stop: 配置对话终止符
num_ctx: 扩展上下文窗口至12800 tokens，支持更长对话}

四、模型加载与运行

1. 创建Ollama模型实例

完成Modelfile编写后，使用ollama create命令将其注册为模型实例：

ollama create DeepSeek-R1-Distill-Llama-70B-Q5_K_M -f /home/DeepSeek-R1-Distill-Llama-70B-GGUF/Modelfile

2. 验证模型列表

创建完毕后，通过ollama list验证模型是否正确加载：

ollama list

# 预期输出
NAME                                          ID              SIZE     MODIFIED
DeepSeek-R1-Distill-Llama-70B-Q5_K_M:latest    dd7ae729f6fc    49 GB    46 minutes ago

3. 启动模型服务

最后，运行模型进入交互式终端：

ollama run DeepSeek-R1-Distill-Llama-70B-Q5_K_M:latest

当命令行出现对话提示符，表明模型已成功运行，此时即可输入测试问题进行交互。

五、远程访问验证

若之前配置了远程访问，可在其他设备上通过服务器IP加端口11434访问，浏览器将显示'Ollama is running'页面，确认服务已对外暴露。

访问 http://{服务器IP}:11434/，出现以下界面即表示服务正常运行：

页面显示 Ollama is running 即代表可远程访问

六、高级应用场景

模型部署完成后，扩展应用场景丰富多样。可接入Open WebUI搭建简洁的可视化聊天界面，或通过RESTful API将模型能力集成至现有应用，亦可借助LangChain编排更复杂的自动化工作流。这些方向均有成熟的工具链支持，后续可针对具体需求深入探讨。

Open WebUI：搭建可视化聊天界面
API集成：通过RESTful API对接应用程序
LangChain：构建自动化AI工作流

来源：https://www.53ai.com/news/finetuning/2025012753089.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。