MacBook本地部署QwQ 32B模型挑战DeepSeek 671B教程_AI热点日报

MacBook本地部署QwQ 32B模型挑战DeepSeek 671B教程

类型：热点整理2026-07-04

阿里近期发布了一项重磅举措，正式开源了名为 QwQ-32B 的推理模型。该模型仅有 320 亿参数，却在多项能力测试中追平了拥有 6710 亿参数的满血版 DeepSeek R1。下图为与满血 R1（671B）、o1-mini、70B R1 及 32B R1 的对比——可见 QwQ-32B 这一“颜

阿里近期发布了一项重磅举措，正式开源了名为 QwQ-32B 的推理模型。该模型仅有 320 亿参数，却在多项能力测试中追平了拥有 6710 亿参数的满血版 DeepSeek R1。下图为与满血 R1（671B）、o1-mini、70B R1 及 32B R1 的对比——可见 QwQ-32B 这一“颜文字”模型的表现已堪比满血版 R1。

（注：图片链接原文已有，此处保留原图）

QwQ 如此出色，其诀窍在于采用了大规模强化学习（RL）技术。什么是强化学习？假设你是一位初次学做菜的新手，厨房是环境，目标是炒出最可口的菜肴。每次你尝试不同的调料组合（即动作），品尝后根据味道好坏（即奖励信号）调整下次加盐或糖的量。起初可能过咸或过淡（试错过程），但通过反复调整，最终找到最佳配方（最优策略）。强化学习正是这样一种机制：通过行动的反馈结果，不断优化选择，直至达成目标。模型正是在这种不断尝试与反馈的循环中反复迭代，最终获得成功。

QwQ-32B 的参数规模仅为 DeepSeek R1 的二十分之一，这意味着它可以在配置尚可的个人电脑上运行。而满血版 DeepSeek R1，没有 400GB 以上的内存恐怕难以流畅运行……

接下来，我们将介绍如何在 MacBook 上本地部署 QwQ。借助 Ollama、Cherry Studio 等便捷工具，整个过程十分简单。本地部署的优势在于数据隐私保护与本地知识库的支持，同时也体现了极客（Geek）们热衷动手探索的精神。若没有这些需求，使用免费的 DeepSeek、元宝客户端，或调用价格低廉的 API，会比本地部署更省心划算。

一、安装 Ollama

Ollama 是一个能在本地运行大语言模型（LLM）的命令行工具。如果你已安装过并部署过其他模型，可跳过此步骤。

首先访问 Ollama 的官网：

_{https://ollama.com/}

点击神兽图标下方的「Download」按钮，即可下载 macOS 版本。

国内网络环境下，使用浏览器直接下载可能较慢，建议将下载链接复制到迅雷等下载工具中，速度会明显提升。

下载完成后解压缩，先将神兽图标拖入「应用程序」文件夹。

随后打开 Ollama，点击中央的 Install，此时需输入 Mac 的解锁密码。出现类似下图中的提示即表示安装完成。

二、下载并执行模型

打开「终端」，输入以下命令：

_{ollama run qwq}

系统即开始下载模型，大小约 19GB 多，网速较快的情况下很快就能完成。

若出现 Success 提示，说明模型下载成功，随后模型会自动加载并运行，你会看到三个尖括号「>>>」，表示已进入聊天模式。

你可以发送任意消息进行测试：

模型会进行思考并给出回复，这表示模型已成功运行。

当然，在命令行中聊天体验不佳，且无法保存对话记录，因此需要搭配一个聊天界面，请参考下一步。

三、搭配 Cherry Studio 使用

Cherry Studio 是一款 AI 对话客户端，支持多种服务商 API 及本地模型接入，同时具备本地知识库（RAG）功能，十分全面。和 Chatbox、ChatX 类似，属于 AI 聊天客户端，你可以选择熟悉的一款使用。

首先到官网下载它：

_{https://cherry-ai.com/}

安装完成后，进入设置界面，依次找到「模型服务」和「Ollama」选项。

在右侧窗口中，检查「API 地址」是否正确，通常默认本地 11434 端口，无需填写密钥，如下图所示：

接着点击下方的「添加」按钮，添加 qwq:latest 模型，并在更多设置中勾选「推理」选项。

保存后，确认 Ollama 旁边的开关已打开，即完成配置。

返回 Cherry Studio 的聊天窗口，点击上方模型选择区域，选取刚创建的模型，即可开始与本地 QwQ 对话。

四、实战测试

现在，让本地部署的 32B DeepSeek R1 与 QwQ 进行对比，看谁表现更优。（注：DeepSeek R1 的本地部署教程可参考：手把手｜在MacBook本地部署DeepSeek R1是一种什么体验？）

给它们出一道小作文题：

_{以“一个发现时间可以倒流，但每次只能倒退5秒的普通人”为主角，写一个300字的故事，需包含冲突和转折。}

先看 32B R1，它思考了 34 秒后输出了故事：

再来看 QwQ-32B，它思考了 76 秒（比前者多一倍），看看它的作品：

不错！QwQ 生成的内容更有深度。同是 320 亿参数，QwQ 的表现明显更突出。此外，在 M4 Pro 的 MacBook 上，32B R1 的生成速度为 14 token/s，而 QwQ-32B 达到 16 token/s，速度略胜一筹。

介绍到这里，感兴趣的朋友可以回家动手尝试部署。

END

来源：https://www.53ai.com/news/OpenSourceLLM/2025032296083.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。