三步即刻拥有QwQ32B性能比肩最强开源模型_AI热点日报_游乐游手机版

首页/AI热点日报/热点详情

三步即刻拥有QwQ32B性能比肩最强开源模型

类型：热点整理2026-07-04

QwQ-32B模型的云原生部署，现在有了更高效的路径。本文将完整介绍如何将QwQ-32B开源模型部署到函数计算（FC），并通过云原生应用开发平台（CAP）实现Ollama和Open WebUI两个FC函数的部署。简单来说，Ollama负责托管QwQ-32B-GGUF模型，Open WebUI则提供用

QwQ-32B模型的云原生部署，现在有了更高效的路径。

本文将完整介绍如何将QwQ-32B开源模型部署到函数计算（FC），并通过云原生应用开发平台（CAP）实现Ollama和Open WebUI两个FC函数的部署。简单来说，Ollama负责托管QwQ-32B-GGUF模型，Open WebUI则提供用户界面，支撑与模型的交互。

借助CAP平台，开发者可以快速完成部署，底层资源管理和运维问题均无需操心，从而将精力聚焦于应用的创新与开发。CAP提供了一个免运维的高效开发环境，具备弹性伸缩和高可用性，确保系统在负载变化时依然稳定运行。付费方面，它采用按量付费模式，仅为实际使用的资源买单，有效降低资源闲置成本。

方案架构

本次方案涉及以下云服务：

1个云原生应用开发平台CAP项目：全托管的Serverless计算服务，用于部署模型服务与Web应用。
1个文件存储NAS：用于存储模型。

按本方案配置完成部署后，阿里云上将搭建出一个如下图所示的运行环境：

部署 QwQ-32B 模型

准备账号

如果还没有阿里云账号，请先访问阿里云账号注册页面[1]，根据提示完成注册。接着登录函数计算服务控制台[2]，按照页面提示完成开通。开通后，再次登录函数计算服务控制台，完成阿里云服务授权。

费用说明

需要说明的是：函数计算提供的试用额度（链接[3]领取）和文件存储提供的试用额度（链接[4]领取），完全可以覆盖本教程所需的资源消耗。假设未领取或免费试用额度已经耗尽，预计体验费用也不会超过9元/小时。实际使用中，可能会因为调整实例数导致费用有所变化，最终以控制台显示的实际报价和账单为准。

有一点需要特别留意：在函数计算中创建的GPU函数，计费方式为函数规格乘以实际运行时长。如果没有请求调用，仅收取闲置预留模式下的快照费用。如果不用于生产环境，建议体验后按提示清理资源，避免继续产生费用。

模型部署

点击前往部署[5]，打开我们提供的云原生应用开发平台CAP项目模板。本方案地域以华北2（北京）为例，其他参数选择默认配置，直接单击部署项目，最后在弹出面板中单击确认部署。整个部署过程预计等待10～12分钟。

注意：首次使用云原生应用开放平台CAP，系统会自动跳转到访问控制快速授权页面。滚动到浏览器底部，单击确认授权，等待授权结束后，再单击返回控制台。

部署完成后，界面类似下图：

应用体验

一、访问示例应用

应用部署完成后，按照下图找到访问地址：

点击访问地址，即可打开示例应用：

二、与模型对话

在文本输入框中，可以直接进行对话交互。输入"你是谁？"或者其他指令后，模型服务会返回相应的响应。

三、修改 Ollama 模型服务配置

按照下图操作，可以通过修改模型服务预留实例数的配置，来实现实例的伸缩：

四、使用 Chatbox 客户端配置 Ollama API 进行对话

先获取API接入地址：按照下图所示，复制访问地址。

接着访问Chatbox下载地址[6]，下载并安装客户端。本方案以macOS M3为例。

运行并配置Ollama API：单击设置。

下拉选择模型提供方为Ollama API，填写API域名（步骤1中获取的访问地址），下拉选择模型为cap-qwq:latest，最后单击保存。

在文本输入框中，即可开始对话交互。输入"你是谁？"或其他指令，模型服务会返回对应的响应。

清理资源

删除云原生应用开发平台CAP项目：登录云原生应用开发平台CAP控制台[7]，在左侧导航栏选择"项目"，找到部署的目标项目，在操作列单击"删除"，然后根据页面提示完成删除。

来源：https://www.53ai.com/news/OpenSourceLLM/2025032561234.html

ai 人工智能

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。