游乐游手机版
首页/AI热点日报/热点详情

MacBook本地部署QwQ 32B模型挑战DeepSeek 671B教程

类型:热点整理2026-07-04
阿里近期发布了一项重磅举措,正式开源了名为 QwQ-32B 的推理模型。该模型仅有 320 亿参数,却在多项能力测试中追平了拥有 6710 亿参数的满血版 DeepSeek R1。下图为与满血 R1(671B)、o1-mini、70B R1 及 32B R1 的对比——可见 QwQ-32B 这一“颜

阿里近期发布了一项重磅举措,正式开源了名为 QwQ-32B 的推理模型。该模型仅有 320 亿参数,却在多项能力测试中追平了拥有 6710 亿参数的满血版 DeepSeek R1。下图为与满血 R1(671B)、o1-mini、70B R1 及 32B R1 的对比——可见 QwQ-32B 这一“颜文字”模型的表现已堪比满血版 R1。

\(注:图片链接原文已有,此处保留原图)


QwQ 如此出色,其诀窍在于采用了大规模强化学习(RL)技术。什么是强化学习?假设你是一位初次学做菜的新手,厨房是环境,目标是炒出最可口的菜肴。每次你尝试不同的调料组合(即动作),品尝后根据味道好坏(即奖励信号)调整下次加盐或糖的量。起初可能过咸或过淡(试错过程),但通过反复调整,最终找到最佳配方(最优策略)。强化学习正是这样一种机制:通过行动的反馈结果,不断优化选择,直至达成目标。模型正是在这种不断尝试与反馈的循环中反复迭代,最终获得成功。


QwQ-32B 的参数规模仅为 DeepSeek R1 的二十分之一,这意味着它可以在配置尚可的个人电脑上运行。而满血版 DeepSeek R1,没有 400GB 以上的内存恐怕难以流畅运行……


接下来,我们将介绍如何在 MacBook 上本地部署 QwQ。借助 Ollama、Cherry Studio 等便捷工具,整个过程十分简单。本地部署的优势在于数据隐私保护与本地知识库的支持,同时也体现了极客(Geek)们热衷动手探索的精神。若没有这些需求,使用免费的 DeepSeek、元宝客户端,或调用价格低廉的 API,会比本地部署更省心划算。


一、安装 Ollama

Ollama 是一个能在本地运行大语言模型(LLM)的命令行工具。如果你已安装过并部署过其他模型,可跳过此步骤。

首先访问 Ollama 的官网:

https://ollama.com/

点击神兽图标下方的「Download」按钮,即可下载 macOS 版本。

国内网络环境下,使用浏览器直接下载可能较慢,建议将下载链接复制到迅雷等下载工具中,速度会明显提升。

下载完成后解压缩,先将神兽图标拖入「应用程序」文件夹

随后打开 Ollama,点击中央的 Install,此时需输入 Mac 的解锁密码。出现类似下图中的提示即表示安装完成。


二、下载并执行模型

打开「终端」,输入以下命令:

ollama run qwq

系统即开始下载模型,大小约 19GB 多,网速较快的情况下很快就能完成。

若出现 Success 提示,说明模型下载成功,随后模型会自动加载并运行,你会看到三个尖括号「>>>」,表示已进入聊天模式。

你可以发送任意消息进行测试:

模型会进行思考并给出回复,这表示模型已成功运行。

当然,在命令行中聊天体验不佳,且无法保存对话记录,因此需要搭配一个聊天界面,请参考下一步。


三、搭配 Cherry Studio 使用

Cherry Studio 是一款 AI 对话客户端,支持多种服务商 API 及本地模型接入,同时具备本地知识库(RAG)功能,十分全面。和 Chatbox、ChatX 类似,属于 AI 聊天客户端,你可以选择熟悉的一款使用。

首先到官网下载它:

https://cherry-ai.com/

安装完成后,进入设置界面,依次找到「模型服务」和「Ollama」选项。

在右侧窗口中,检查「API 地址」是否正确,通常默认本地 11434 端口,无需填写密钥,如下图所示:

接着点击下方的「添加」按钮,添加 qwq:latest 模型,并在更多设置中勾选「推理」选项。

保存后,确认 Ollama 旁边的开关已打开,即完成配置。

返回 Cherry Studio 的聊天窗口,点击上方模型选择区域,选取刚创建的模型,即可开始与本地 QwQ 对话。

四、实战测试

现在,让本地部署的 32B DeepSeek R1 与 QwQ 进行对比,看谁表现更优。(注:DeepSeek R1 的本地部署教程可参考:手把手|在MacBook本地部署DeepSeek R1是一种什么体验?)

给它们出一道小作文题:

以“一个发现时间可以倒流,但每次只能倒退5秒的普通人”为主角,写一个300字的故事,需包含冲突和转折。

先看 32B R1,它思考了 34 秒后输出了故事:

再来看 QwQ-32B,它思考了 76 秒(比前者多一倍),看看它的作品:

不错!QwQ 生成的内容更有深度。同是 320 亿参数,QwQ 的表现明显更突出。此外,在 M4 Pro 的 MacBook 上,32B R1 的生成速度为 14 token/s,而 QwQ-32B 达到 16 token/s,速度略胜一筹。

介绍到这里,感兴趣的朋友可以回家动手尝试部署。

END

来源:https://www.53ai.com/news/OpenSourceLLM/2025032296083.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。