先说说几个核心判断:Ollama 作为一款出色的本地大语言模型管理工具,核心价值就在于帮你轻松把开源 LLM “部署到本地”。它的 CLI 和服务器设计极为轻量,下载、运行、管理各种开源模型,只需一条命令即可完成。对于想自行构建 AI 应用的开发者来说,这确实是一个趁手的利器。

一、快速上手 Ollama
本文以 Windows 环境为例进行演示,但根据实际体验,在相同硬件配置下,Linux 系统的运行会更加流畅,这一点值得注意。
1.1 安装 Ollama 的两种方式
直接下载安装包即可:
https://ollama.com/download/OllamaSetup.exe
这里单独推荐 Docker 部署方式,后续管理更为便捷。
CPU 版本
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
GPU 版本
前提是已安装好 Nvidia container toolkit:
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html#installation
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
Ollama 常用命令
启动服务:
ollama serve
查看本地已下载的模型:
ollama list
下载模型,例如千问 72B:
ollama pull qwen2:72b
运行模型:
ollama run qwen2:72b
在 Docker 容器里运行模型:
docker exec -it ollama ollama run qwen2:72b
AI 提效:搭建本地代码补全助手与 AI 聊天助手
我们可以将代码生成模型、Ollama 和 IDE 插件三者组合,构建一个模块化、完全本地的代码自动补全方案。例如,使用 Codeqwen 7B 模型搭配 VSCode 的 Continue 插件,即可流畅实现代码智能补全。
推荐的模型搭配:Codeqwen 7B + Qwen2 7B
ollama run codeqwen ollama run qwen2:7b
这两个模型中,Codeqwen 7B 专精代码补全,而 Qwen2 7B 是通用聊天模型。两者均非重量级模型,本地运行压力较小。结合使用可同时获得代码补全和 AI 助手的对话能力。
下载并运行好两个模型后,接下来在 VSCode 中进行配置。编辑 Continue 插件的 config.json:
{
"models": [
{
"title": "Codeqwen 7B",
"provider": "ollama",
"model": "codeqwen",
"apiBase": "http://127.0.0.1:11434"
}
],
"tabAutocompleteModel": {
"title": "Qwen2 7B",
"provider": "ollama",
"model": "qwen2:7b",
"apiBase": "http://127.0.0.1:11434"
}
}
借助 RAG 向量检索优化聊天体验
Continue 插件内置了 @codebase 上下文 provider,能够自动从代码库中检索最相关的代码片段。如果使用本地聊天模型,可以借助 Ollama 和 LanceDB 的向量化技术,进一步提升代码检索效率与聊天交互质量。
ollama pull nomic-embed-text ollama run nomic-embed-text
然后继续向 config.json 追加配置。
验证配置:运行测试代码补全与对话功能
检查代码补全效果和对话功能是否正常。
此外,像自动代码注释等功能也值得自行扩展。
至此,一个乞丐版 Cursor 就算搭建完成了。
