游乐游手机版
首页/AI热点日报/热点详情

三步即刻拥有QwQ32B性能比肩最强开源模型

类型:热点整理2026-07-04
QwQ-32B模型的云原生部署,现在有了更高效的路径。本文将完整介绍如何将QwQ-32B开源模型部署到函数计算(FC),并通过云原生应用开发平台(CAP)实现Ollama和Open WebUI两个FC函数的部署。简单来说,Ollama负责托管QwQ-32B-GGUF模型,Open WebUI则提供用

QwQ-32B模型的云原生部署,现在有了更高效的路径。

本文将完整介绍如何将QwQ-32B开源模型部署到函数计算(FC),并通过云原生应用开发平台(CAP)实现Ollama和Open WebUI两个FC函数的部署。简单来说,Ollama负责托管QwQ-32B-GGUF模型,Open WebUI则提供用户界面,支撑与模型的交互。

借助CAP平台,开发者可以快速完成部署,底层资源管理和运维问题均无需操心,从而将精力聚焦于应用的创新与开发。CAP提供了一个免运维的高效开发环境,具备弹性伸缩和高可用性,确保系统在负载变化时依然稳定运行。付费方面,它采用按量付费模式,仅为实际使用的资源买单,有效降低资源闲置成本。

方案架构

本次方案涉及以下云服务:

  • 1个云原生应用开发平台CAP项目:全托管的Serverless计算服务,用于部署模型服务与Web应用。
  • 1个文件存储NAS:用于存储模型。

按本方案配置完成部署后,阿里云上将搭建出一个如下图所示的运行环境:

部署 QwQ-32B 模型

准备账号

如果还没有阿里云账号,请先访问阿里云账号注册页面[1],根据提示完成注册。接着登录函数计算服务控制台[2],按照页面提示完成开通。开通后,再次登录函数计算服务控制台,完成阿里云服务授权。

费用说明

需要说明的是:函数计算提供的试用额度(链接[3]领取)和文件存储提供的试用额度(链接[4]领取),完全可以覆盖本教程所需的资源消耗。假设未领取或免费试用额度已经耗尽,预计体验费用也不会超过9元/小时。实际使用中,可能会因为调整实例数导致费用有所变化,最终以控制台显示的实际报价和账单为准。

有一点需要特别留意:在函数计算中创建的GPU函数,计费方式为函数规格乘以实际运行时长。如果没有请求调用,仅收取闲置预留模式下的快照费用。如果不用于生产环境,建议体验后按提示清理资源,避免继续产生费用。

模型部署

点击前往部署[5],打开我们提供的云原生应用开发平台CAP项目模板。本方案地域以华北2(北京)为例,其他参数选择默认配置,直接单击部署项目,最后在弹出面板中单击确认部署。整个部署过程预计等待10~12分钟。

注意:首次使用云原生应用开放平台CAP,系统会自动跳转到访问控制快速授权页面。滚动到浏览器底部,单击确认授权,等待授权结束后,再单击返回控制台

部署完成后,界面类似下图:

应用体验

一、访问示例应用

应用部署完成后,按照下图找到访问地址:

点击访问地址,即可打开示例应用:

二、与模型对话

在文本输入框中,可以直接进行对话交互。输入"你是谁?"或者其他指令后,模型服务会返回相应的响应。

三、修改 Ollama 模型服务配置

按照下图操作,可以通过修改模型服务预留实例数的配置,来实现实例的伸缩:

四、使用 Chatbox 客户端配置 Ollama API 进行对话

先获取API接入地址:按照下图所示,复制访问地址。

接着访问Chatbox下载地址[6],下载并安装客户端。本方案以macOS M3为例。

运行并配置Ollama API:单击设置。

下拉选择模型提供方为Ollama API,填写API域名(步骤1中获取的访问地址),下拉选择模型为cap-qwq:latest,最后单击保存。

在文本输入框中,即可开始对话交互。输入"你是谁?"或其他指令,模型服务会返回对应的响应。

清理资源

删除云原生应用开发平台CAP项目:登录云原生应用开发平台CAP控制台[7],在左侧导航栏选择"项目",找到部署的目标项目,在操作列单击"删除",然后根据页面提示完成删除。

来源:https://www.53ai.com/news/OpenSourceLLM/2025032561234.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。