游乐游手机版
首页/AI教程/文章详情

Ollama本地大模型安装配置完整教学指南

时间:2026-06-09 15:10
Ollama是一款轻量级大模型管理工具,支持本地化部署、多模型及量化显存优化。提供Linux手动安装、systemd服务配置、CLI命令(下载、运行、停止、删除模型)及依赖Docker的WebUI部署,支持环境变量与GPU限制等灵活配置。

Ollama介绍和特性

如果你正在寻找一个轻量级、易于上手的大模型管理工具,那么Ollama大概率会进入你的视野。它设计的初衷,就是让开发者能够快速加载、管理、调用各种主流大模型,并且支持本地化部署。听起来是不是挺方便的?那么,它到底强在哪里?

Ollama本地大模型安装配置的完整流程教学

核心特点一览:

  • 轻量化设计——体积小巧,安装简单,个人开发者和小型团队都能轻松上手。
  • 多模型支持——支持的模型种类相当丰富:从Meta的Llama系列,到阿里的Qwen系列,再到DeepSeek系列,基本你能想到的主流选择都能运行。
  • 资源优化——通过量化技术大幅降低模型显存占用,对高性能GPU的依赖自然减了下来,普通硬件也能用。
  • 易用性——提供了命令行工具和图形化界面,不管你是命令行党还是图形界面爱好者,都能找到舒服的用法。
  • 扩展性强——可以与Kubernetes、Docker等工具结合,实现分布式部署和管理,灵活性非常高。

Ollama与其它工具对比

Ollama

官网:https://ollama.com/

安装简单,提供CLI和WebUI,对初学者和开发人员来说非常友好。支持量化技术降低内存占用,普通硬件也能跑。支持Linux、macOS和Windows三大主流系统,而且覆盖了大部分主流模型。不过需要注意的是,Ollama在并发性能上不如vLLM。

vLLM

官网:https://vllm.ai/

vLLM主打高效的大模型推理和服务,特别是多GPU环境下,性能表现相当抢眼,更适合大规模在线推理服务。但代价是什么?部署复杂度偏高,需要一定的技术基础,而且主要面向Linux,跨平台支持比较有限。

LocalAI

官网:https://localai.io/

LocalAI和Ollama定位很相似,也是一个轻量级的本地大模型服务框架,开箱即用、无需复杂配置。但它在性能优化上不如vLLM和Ollama,功能也相对薄弱,比如不支持多线程加速等高级特性。

Ollama安装部署

Linux 手动安装 Ollama

下载并安装Ollama的步骤如下,直接复制执行即可:

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz

创建Ollama专用用户:

sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama
sudo usermod -a -G ollama $(whoami)

创建模型存储目录:

mkdir /data/ollama/models
chown -R ollama.ollama /data/ollama/

创建Ollama启动Service,将以下配置保存到 /etc/systemd/system/ollama.service

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_MODELS=/data/ollama/models"

[Install]
WantedBy=default.target

启动Ollama服务:

systemctl daemon-reload
systemctl enable --now ollama

查看启动状态:

systemctl status ollama

如果一切正常,你会看到类似下面的输出:

● ollama.service - Ollama Service
   Loaded: loaded (/etc/systemd/system/ollama.service; enabled; vendor preset: disabled)
   Active: active (running) since ...

最后测试一下端口是否正常:

curl 127.0.0.1:11434

预期返回:

Ollama is running

Ollama 常用命令详解

下载模型

以deepseek-r1:1.5b为例,一行命令搞定:

ollama pull deepseek-r1:1.5b

下载过程很直观,会显示进度条:

pulling manifest
pulling aabd4debf0c8... 100% ▕██████████████████████████████████████████████████████████████████████████▏ 1.1 GB
pulling 369ca498f347... 100% ▕██████████████████████████████████████████████████████████████████████████▏ 387 B
pulling 6e4c38e1172f... 100% ▕██████████████████████████████████████████████████████████████████████████▏ 1.1 KB
pulling f4d24e9138dd... 100% ▕██████████████████████████████████████████████████████████████████████████▏ 148 B
pulling a85fe2a2e58e... 100% ▕██████████████████████████████████████████████████████████████████████████▏ 487 B
verifying sha256 digest
writing manifest
success

查看本地模型列表

ollama list

输出示例:

NAME ID SIZE MODIFIED
deepseek-r1:1.5b a42b25d8c10a 1.1 GB 3 minutes ago
phi:latest e2fd6321a5fe 1.6 GB 27 minutes ago

查看模型详情

ollama show deepseek-r1:1.5b

输出包含架构、参数量、上下文长度等信息:

architecture qwen2
parameters 1.8B
context length 131072
embedding length 1536
quantization Q4_K_M

Parameters
stop "<|begin▁of▁sentence|>"
stop "<|end▁of▁sentence|>"
stop "<|User|>"
stop "<|Assistant|>"

License
MIT License
Copyright (c) 2023 DeepSeek

启动一个模型并进入交互模式

ollama run phi

启动后直接可以像聊天一样和模型对话:

>>> who are you?
I am Phi, a large language model trained by Microsoft. I'm here to help you with any questions or tasks you ha ve. What can I assist you with today?

查看当前正在运行的模型

ollama ps

输出示例:

NAME ID SIZE PROCESSOR UNTIL
phi:latest e2fd6321a5fe 5.4 GB 100% GPU 4 minutes from now
deepseek-r1:1.5b a42b25d8c10a 2.0 GB 100% GPU About a minute from now

停止一个运行中的模型

ollama stop phi:latest

停止后再查看,就能看到只剩其他模型还在运行:

ollama ps

NAME ID SIZE PROCESSOR UNTIL
deepseek-r1:1.5b a42b25d8c10a 2.0 GB 100% GPU 17 seconds from now

删除一个本地模型

ollama rm phi:latest

确认删除后再查看:

ollama list

NAME ID SIZE MODIFIED
deepseek-r1:1.5b a42b25d8c10a 1.1 GB 42 hours ago

Ollama WebUI 部署

注意:WebUI需要依赖Docker启动,如果服务器上没有Docker,得先装好。

创建数据目录:

mkdir -p /data/ollama/webui

一行docker命令就能搞定部署:

docker run -d -p 3000:8080 -e ENABLE_OPENAI_API=false -e OLLAMA_BASE_URL=https://[OLLAMA_HOST]:11434 -e HF_HUB_OFFLINE=1 -v /data/ollama/models:/root/.ollama -v /data/ollama/webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

启动后通过宿主机的3000端口访问即可。

Ollama 服务端常用配置

启动服务端:

ollama serve

如果需要自定义端口:

OLLAMA_HOST=0.0.0.0:11435 ollama serve

常用环境变量一览:

环境变量说明默认值
OLLAMA_DEBUG启用调试模式,设为1开启-
OLLAMA_HOST指定服务绑定的IP和端口127.0.0.1:11434
OLLAMA_KEEP_ALIVE模型在内存中保持加载的时间5m
OLLAMA_MAX_LOADED_MODELS每块GPU上同时加载的最大模型数量-
OLLAMA_MAX_QUEUE请求队列最大长度,超限会拒绝新请求-
OLLAMA_MODELS模型文件存储目录~/.ollama/models
OLLAMA_NUM_PARALLEL同时处理的最大并行请求数-
OLLAMA_NOPRUNE禁用启动时模型清理-
OLLAMA_ORIGINS允许跨域访问的来源列表(逗号分隔)-
OLLAMA_SCHED_SPREAD强制将模型均匀调度到所有可用GPU上-
OLLAMA_FLASH_ATTENTION启用Flash Attention(硬件不支持可能报错)-
OLLAMA_KV_CACHE_TYPEK/V缓存的量化类型f16
OLLAMA_GPU_OVERHEAD预留显存,防止其他进程崩溃-
OLLAMA_LOAD_TIMEOUT模型加载最大超时时间(分钟)5m

限制使用指定GPU

默认情况下,Ollama可以使用所有可用的GPU进行推理。如果想控制它只使用某几块显卡,可以通过CUDA_VISIBLE_DEVICES来搞定。

假设你想限制Ollama只使用GPU 0和1,编辑/etc/systemd/system/ollama.service,在Environment中加上:

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_MODELS=/data/ollama/models"
Environment="CUDA_VISIBLE_DEVICES=0,1"

[Install]
WantedBy=default.target

修改完后,重新加载并重启:

systemctl daemon-reload
systemctl restart ollama

进阶说明

如果机器上有多张NVIDIA显卡,可以通过编号或UUID来指定:

  • 数字编号:直接用数字标识显卡,但编号顺序可能变化。
  • UUID(推荐):使用UUID更可靠,硬件变更也不会影响。

查看显卡UUID的命令:

nvidia-smi -L

强制使用CPU运算:如果想完全忽略显卡,直接设一个无效编号:

Environment="CUDA_VISIBLE_DEVICES=-1"
来源:https://www.jb51.net/ai/1022844.html
上一篇国内稳定使用Claude Code的三种姿势总结 下一篇Claude Code无法连接Anthropic服务的解决方法
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案
AI教程 · 2026-07-02

内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案

这三年,内网RPA项目接了不下二十个。每次开局都像闯关——断网、缺依赖、多机同步、定时执行、批量分发、源码保护、AI离线化,八个坑一个比一个深。今天把这些实战经验整理出来,希望能帮正在内网搞自动化的兄弟们少踩点雷。 一、内网无网络环境怎么部署RPA流程:先搞清楚什么叫“真离线” 很多工具宣传“支持本

水利工程师用WorkBuddy写洪水报告效率提升3倍
AI教程 · 2026-07-02

水利工程师用WorkBuddy写洪水报告效率提升3倍

WorkBuddy开发者分享季 水利工程师AI提效实战:用WorkBuddy撰写洪水影响评价报告,效率提升3倍 WorkBuddy 效率 人工智能 开发工具 一、我是谁,为什么需要AI 先介绍一下自己——我是一名水利工程师,在湖南长沙的一家小型水利设计公司任职。当前行业环境不太

日志服务数据加工规则洞察仪表盘使用指南
AI教程 · 2026-07-02

日志服务数据加工规则洞察仪表盘使用指南

数据加工诊断仪表盘 想实时掌握日志服务加工功能的运行状态?直接从加工列表页点击那个“规则洞察”按钮,仪表盘就会立刻呈现出来。入口就在那儿,不绕弯子。 跳转后,你可以按作业名称、实例ID或源LogStore来筛选任务状态。比如下边这张图,展示的是当前实例ID(90c9d47714dbb807d47c1

基于RFID的固定资产管理系统技术架构与工程实践
AI教程 · 2026-07-02

基于RFID的固定资产管理系统技术架构与工程实践

固定资产管理难题是众多企事业单位的普遍困扰,资产数量动辄数千件,且广泛分布于不同部门、楼层乃至园区。传统人工盘点方式在工程维度上始终面临三大关键瓶颈:采集效率低下、数据闭环中断、状态同步滞后。使用条码枪逐一扫描标签,识别距离通常不超过30厘米,操作人员需逐个寻找并扫描,盘点效率完全受限于人力。面对5

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效
AI教程 · 2026-07-02

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效

炒股的朋友们想必都深有体会——每天重复盯盘、查行情、分析板块轮动,这一整套流程下来耗费大量精力。手动翻查数据不仅身心俱疲,还很容易错过关键买卖节点。今天我们就来聊聊如何打造一款趁手的盯盘工具,借助AI替你分担这些重复性工作。 背景:盯盘的核心痛点 股民都有同感——每天不只要查询单只股票的实时行情,还