本地大模型部署:Ollama+Qwen2.5在Win11上的配置步骤详解
时间:2026-06-08 15:20
基于Ollama与Qwen2 5在Win11上实现本地大模型部署,无需独立显卡,保障隐私安全。详述Ollama安装、Modelfile配置、ModelScope下载GGUF及API调用流程,实测qwen2 5-3b 7b量化模型。
0、前言
先说几个核心判断:在本地部署大模型时,Ollama是目前最轻量的选择之一,配合Qwen2.5,在Win11上运行非常流畅。最吸引人的是——即使没有独立显卡也能流畅运行,数据隐私也能完全掌控在自己手中。本文将围绕以下几个关键点展开:Ollama的安装方法、Modelfile的配置方式、ModelScope的用途、Notebook的角色,以及如何通过API成功调用大模型。

通过这次部署实践,你将了解到:
-
Ollama 的功能定位,以及如何安装与使用;
-
Modelfile 的结构与配置方法;
-
ModelScope 在整个流程中的作用;
-
Notebook 在什么场景下能派上用场;
- 这些工具如何组合,部署成功后怎样通过API进行调用。
1、环境与准备
实践出真知,先展示一下我的实验环境配置:
- Win11:Windows 11 专业版 25H2
- CPU:Intel(R) Core(TM) i7-8750H CPU @ 2.20GHz (2.21 GHz)
- 内存:16.0 GB
- 显卡:GTX1050Ti(坦白说性能一般,本次实践中几乎没用到它)
- Ollama:0.17.7
- 大模型:
- qwen2.5-3b-instruct-q4_k_m
- qwen2.5-7b-instruct-q4_k_m
前置依赖检查
-
PowerShell(Win11系统自带即可满足需求)
-
Git(非必需,用于下载资源时更方便)
-
Python(仅在需要使用
ModelScope CLI时安装;如果直接从浏览器下载,可以跳过)
2、核心概念速览
2.1、模型文件名 qwen2.5-3b-instruct-q4_k_m.gguf 的含义解读
文件名通常格式为:
qwen2.5-3b-instruct-q4_k_m.gguf。
instruct 表示该模型经过了指令微调,非常适合对话交互场景;如果是
base 版本,则更适合文本续写或二次微调,直接用于对话效果较差。
1)
q + 数字:代表每个参数存储所用的 bit 数。
- 数字越小 = 模型文件越小 = 推理速度越快 = 智能程度略微降低;
- 数字越大 = 模型文件越大 = 推理速度越慢 = 理论上更聪明;
- 行业共识:4-bit(
q4)是性价比最高的选择,智能损失极小,但存储体积可以减少一半。
2)
k:表示使用了 K-quants 量化技术,相比传统的
q4_0 更加智能,压缩效率更高。
3)
m/s/l:分别代表 Small(小)、Medium(中)、Large(大)。
-
q4_k_s:体积更小,性能略微下降;
-
q4_k_m:标准版,平衡性最佳,推荐首选;
-
q4_k_l:体积更大,智能程度略高,但对显存的要求也相应提升。
2.2、Modelfile 的基本结构与含义
Modelfile 是 Ollama 的“核心配置文件”,它告诉系统模型的来源、对话方式以及输出风格。基本结构如下:
FROM
SYSTEM
PARAMETER
TEMPLATE
ADAPTER
PROJECTOR
MESSAGE
LICENSE
逐条解释如下:
-
FROM :指定基础模型,这是必选项。
-
SYSTEM :设置系统提示词,相当于为模型定义角色设定。
-
PARAMETER :设定推理参数,例如温度、上下文长度等。
-
TEMPLATE :定义对话模板格式,让模型理解用户消息的结构。
-
ADAPTER :加载 LoRA 适配器文件,用于微调后的模型。
-
PROJECTOR :加载多模态投影器,使模型能够处理图像输入。
-
MESSAGE :预设对话示例,可用于 Few-shot prompting。
-
LICENSE :声明模型的许可协议信息。
实际使用中,通常只需要以下三行即可:
FROM llama3
SYSTEM "你是个诗人"
PARAMETER temperature 0.8
2.3、Notebook 是什么?
虽然本文主要聚焦本地部署,但如果本地硬件资源确实不足(例如显存不够),ModelScope Notebook 是一个不错的云端备选方案——可以在线免费体验大模型,无需担心本地硬件限制。
2.4、运行大模型的通俗理解
可以把运行大模型类比为“搬家”,这样更容易理解:
- 量化等级(Quantization) = 家具打包压缩的程度,压得越紧箱子越小,但不能无限压缩;
- 推理框架 = 运输工具的选择,选对了搬运效率高且稳定;
- 上下文长度(Context Length)= 本次需要搬运的物品总量,记忆量越大,占用的空间也越大。
3、实战部署:安装与运行
3.1、安装 Ollama
前往 Ollama 官方网站下载安装包,一路默认安装即可。安装完成后,在终端输入版本号验证是否成功:
ollama -v
ollama version is 0.17.7
3.2、方式一:一键拉取(官方推荐)
这是最便捷的方式,无论是通过 Ollama 的图形界面还是命令行,一行命令即可完成:
ollama run qwen2.5:3b
自动完成下载、加载和运行,适合快速体验。
3.3、方式二:自定义导入(进阶)
如果需要更灵活地控制模型版本,例如使用自己下载的 GGUF 文件,需要按照以下步骤操作。
1)从 ModelScope 下载 GGUF 文件
以 Qwen2.5-3B-Instruct-GGUF 为例,这也是我实际部署的版本。你可以直接在浏览器中下载,找到类似
qwen2.5-3b-instruct-q4_k_m.gguf 的文件即可。
2)编写 Modelfile 文件
创建一个新文件,命名为
Modelfile,内容如下(注意路径需要替换为你电脑上的实际位置):
FROM "G:\AI\Model\files\qwen2.5-3b\qwen2.5-3b-instruct-q4_k_m.gguf"
TEMPLATE """{{- if .Messages }}{{- range $i, $_ := .Messages }}{{- $last := eq (len (slice $.Messages $i)) 1 }}{{- if eq .Role "user" }}<|im_start|>user{{ .Content }}<|im_end|>{{ else if eq .Role "assistant" }}<|im_start|>assistant{{ .Content }}<|im_end|>{{ else if eq .Role "system" }}<|im_start|>system{{ .Content }}<|im_end|>{{ end }}{{- if $last }}<|im_start|>assistant{{ end }}{{- end }}{{- else }}{{- if .System }}<|im_start|>system{{ .System }}<|im_end|>{{ end }}{{ if .Prompt }}<|im_start|>user{{ .Prompt }}<|im_end|>{{ end }}<|im_start|>assistant{{ end }}"""
PARAMETER stop <|im_end|>
PARAMETER stop <|im_start|>
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER top_k 20
PARAMETER repeat_penalty 1.05
LICENSE """https://huggingface.co/Qwen/Qwen2.5-3B-Instruct/blob/main/LICENSE"""
如果只是为了快速测试,最简单的版本只需要一行:
FROM "F:\Downloads\qwen2.5-3b-instruct-q4_k_m.gguf"
不过极简配置在自问自答场景下几乎不可用,因此建议使用完整的配置。
3)创建模型
打开 PowerShell,切换到 Modelfile 所在目录,执行以下命令:
ollama create qwen2.5:3b -f Modelfile
或者使用绝对路径:
ollama create qwen2.5:3b -f G:\AI\Model\files\qwen2.5-3b\Modelfile
4)运行模型
ollama run qwen2.5:3b
运行后可以查看大模型的状态参数:
-
SIZE:占用内存大小;
-
PROCESSOR:如果显示
100% CPU,说明模型完全由中央处理器运行,没有启用显卡加速(我的显卡只有4GB显存,确实带不动);
-
CONTEXT:当前会话保留的“记忆”长度(Token 数量),数字越大占用的内存也越多;
-
UNTIL:自动卸载倒计时,如果一段时间无人使用,Ollama 会在2分钟后自动将模型从内存中释放,以节省资源。
5)示例:Qwen2.5-7B 的配置
配置思路完全一致,仅需要更换模型文件路径:
FROM ./qwen2.5-7b-instruct-q4_k_m.gguf
TEMPLATE """{{- if .System }}<|im_start|>system{{ .System }}<|im_end|>{{- end }}<|im_start|>user{{ .Prompt }}<|im_end|><|im_start|>assistant"""
PARAMETER stop <|im_end|>
PARAMETER stop <|im_start|>
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER top_k 20
SYSTEM "你是一个有帮助的AI助手。"
4、通过API访问大模型
4.1、启动服务
ollama serve
默认情况下,Ollama 只允许本机连接。如果需要局域网内的其他设备访问,需要额外配置。在 Windows 环境下,按照提示修改环境变量或防火墙设置即可。
4.2、PowerShell 中测试接口
curl https://192.168.2.111:11434/api/generate -d "{\"model\": \"qwen2.5:3b\", \"prompt\": \"hello\"}"
curl https://192.168.31.87:11434/api/tags
注意将 IP 地址替换为你自己的局域网 IP。
4.3、后台运行技巧
Start-Process ollama -ArgumentList "run","qwen2.5:3b" -WindowStyle Hidden
这样模型就会安静地在后台运行,不干扰前台操作。
5、常用命令速查表
# 查看帮助
ollama -h
# 查看本地已下载的模型
ollama list
# 下载并运行模型
ollama run qwen2.5:3b
# 单次问答
ollama run qwen2.5:3b "你好,请介绍一下你自己"
# 删除模型
ollama rm <模型名>
# 启动后台服务
ollama serve
# 查看模型详情
ollama show <模型名>
# 查看正在运行的模型
ollama ps
# 停止模型
ollama stop qwen2.5:3b
6、附录与参考资料
6.1、文档资料链接
1)Ollama:官方官网和文档提供了详细的快速入门指南。
2)魔搭 ModelScope:可以找到各类模型的 GGUF 版本。
3)Python 3.11.9:如果使用 ModelScope CLI,需要安装相应版本。
6.2、ModelScope Pip 安装详解
# 安装 Python
python -V
Python 3.11.9
# 安装魔搭
pip install modelscope
# 下载完整模型库
modelscope download --model Qwen/Qwen2.5-3B-Instruct-GGUF
# 下载单个文件到指定本地文件夹(以下载 README.md 到当前路径下的 dir 目录为例)
modelscope download --model Qwen/Qwen2.5-3B-Instruct-GGUF README.md --local_dir ./dir