游乐游手机版
首页/AI热点日报/热点详情

Ollama部署DeepSeek-R1 70B模型完整教程

类型:热点整理2026-06-29
部署一个70B参数的DeepSeek-R1大模型看似复杂,实则流程清晰,仅需几个关键步骤。从模型文件下载到启动服务并实现远程访问,每个环节都有成熟的工具和配置方法。下文将逐步拆解,助您快速上手。 Ollama部署DeepSeek-R1 70B大模型完整指南 一、模型下载与准备 1 获取GGUF格式

部署一个70B参数的DeepSeek-R1大模型看似复杂,实则流程清晰,仅需几个关键步骤。从模型文件下载到启动服务并实现远程访问,每个环节都有成熟的工具和配置方法。下文将逐步拆解,助您快速上手。

Ollama部署DeepSeek-R1 70B大模型完整指南

一、模型下载与准备

1. 获取GGUF格式模型文件

推荐通过ModelScope平台直接获取已量化处理的GGUF模型文件。选择Q5_K_M量化级别是平衡性能与资源消耗的明智之选——在保持约94%精度的同时,将模型体积压缩至49GB,对存储和内存要求更为友好。

pip install modelscope
modelscope download --model unsloth/DeepSeek-R1-Distill-Llama-70B-GGUF DeepSeek-R1-Distill-Llama-70B-Q5_K_M.gguf --local_dir  /DeepSeek-R1-Distill-Llama-70B-GGUF

技术说明:GGUF(GPT-Generated Unified Format)是一种专为大语言模型设计的跨平台格式,支持CPU/GPU混合推理,尤其适合在Apple Silicon设备或纯CPU环境下运行。Q5_K_M量化策略在保留约94%模型精度的同时,将文件体积压缩至49GB,实现存储与性能的最佳平衡。

二、Ollama环境配置

1. 安装Ollama推理框架

Ollama的安装极为简便,仅需一行命令即可完成。根据官方文档指引,执行以下脚本即可快速部署:

curl -fsSL https://ollama.com/install.sh | sudo sh

2. 配置远程访问(可选)

若需在局域网内其他设备上访问模型服务,需修改Ollama启动参数。执行以下命令编辑系统服务文件:

sudo nano /etc/systemd/system/ollama.service

[Service]块里添加两行环境变量:

Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"

然后刷新服务配置并重启:

sudo systemctl daemon-reload
sudo systemctl restart ollama

三、模型配置文件编写

模型文件准备好后,需编写Modelfile以指导Ollama如何加载模型。关键配置包括GGUF文件路径、对话模板(template)以及若干运行时参数。以下是一个可直接使用的模板范例:

# 这里填入gguf文件路径
FROM /home/DeepSeek-R1-Distill-Llama-70B-GGUF/DeepSeek-R1-Distill-Llama-70B-Q5_K_M.gguf

# 以下为模型模板配置
TEMPLATE """{{- if .System }}{{ .System }}{{ end }}
{{- range $i, $_ := .Messages }}
{{- $last := eq (len (slice $.Messages $i)) 1}}
{{- if eq .Role "user" }}<|begin▁of▁sentence|>{{ .Content }}
{{- else if eq .Role "assistant" }}<|end▁of▁sentence|>{{ .Content }}{{- if not $last }}<|end▁of▁sentence|>{{- end }}
{{- end }}
{{- if and $last (ne .Role "assistant") }}<|end▁of▁sentence|>{{- end }}
{{- end }}"""

PARAMETER stop "<|end▁of▁sentence|>"
PARAMETER stop "<|begin▁of▁sentence|>"
PARAMETER stop "用户:"
PARAMETER stop "助手:"

PARAMETER num_ctx 12800

参数说明

  • stop: 配置对话终止符
  • num_ctx: 扩展上下文窗口至12800 tokens,支持更长对话

四、模型加载与运行

1. 创建Ollama模型实例

完成Modelfile编写后,使用ollama create命令将其注册为模型实例:

ollama create DeepSeek-R1-Distill-Llama-70B-Q5_K_M -f /home/DeepSeek-R1-Distill-Llama-70B-GGUF/Modelfile

2. 验证模型列表

创建完毕后,通过ollama list验证模型是否正确加载:

ollama list

# 预期输出
NAME                                          ID              SIZE     MODIFIED
DeepSeek-R1-Distill-Llama-70B-Q5_K_M:latest    dd7ae729f6fc    49 GB    46 minutes ago

3. 启动模型服务

最后,运行模型进入交互式终端:

ollama run DeepSeek-R1-Distill-Llama-70B-Q5_K_M:latest

当命令行出现对话提示符,表明模型已成功运行,此时即可输入测试问题进行交互。

五、远程访问验证

若之前配置了远程访问,可在其他设备上通过服务器IP加端口11434访问,浏览器将显示'Ollama is running'页面,确认服务已对外暴露。

访问 http://{服务器IP}:11434/,出现以下界面即表示服务正常运行:

页面显示 Ollama is running 即代表可远程访问

六、高级应用场景

模型部署完成后,扩展应用场景丰富多样。可接入Open WebUI搭建简洁的可视化聊天界面,或通过RESTful API将模型能力集成至现有应用,亦可借助LangChain编排更复杂的自动化工作流。这些方向均有成熟的工具链支持,后续可针对具体需求深入探讨。

  1. Open WebUI:搭建可视化聊天界面
  2. API集成:通过RESTful API对接应用程序
  3. LangChain:构建自动化AI工作流
来源:https://www.53ai.com/news/finetuning/2025012753089.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。