阿里云容器计算服务ACS深度对接实践指南

时间：2026-06-14 14:09

阿里云容器计算服务ACS以Kubernetes为界面，提供免运维、按秒计费的Serverless容器算力。支持通用型、性能型、GPU型等多种算力，集成CSI存储与SLS日志，默认开启Prometheus监控，并可通过GitHubActions构建CI CD流水线实现自动化部署。

一、初识阿里云容器计算服务ACS

阿里云容器计算服务（Container Compute Service，简称ACS）作为阿里云在Serverless容器领域的旗舰产品，以Kubernetes为统一交互界面，为用户提供弹性伸缩、免运维的容器算力资源。从产品演进脉络来看，ACS可视为ACK Serverless集群（即原来的ASK）的一次重大升级，在成本控制、易用性和弹性能力上均有显著提升。相较于传统的ACK Pro集群，ACS彻底解决了运维层面的核心痛点：用户无需操心节点规格选型、节点创建及日常管理，只需按需申请Pod资源即可。系统会自动分配算力资源，并支持按秒计费，大幅降低闲置成本。

阿里云容器计算服务ACS深度对接与实践指南

想要快速上手体验？请先登录阿里云控制台，点击：阿里云控制台。

二、开通服务与授权前置

在使用阿里云ACS之前，需要完成两项关键操作：服务开通与权限授权。登录容器计算服务控制台后，点击“前往开通”按钮，按照页面指引完成服务开通流程。开通成功后，返回控制台并刷新页面，接着点击“前往授权”，使ACS能够正常访问其他云资源。完成上述步骤后，刷新控制台即可正常使用ACS的全部功能。对于RAM子账号用户，请务必授予与ACS相关的系统策略，例如AliyunCSFullAccess，以确保拥有完整的集群管理权限。

三、网络架构设计与集群创建

在创建ACS集群之前，合理的网络规划至关重要。ACS集群的网络架构由三层组成：VPC作为网络边界，定义了整体的IP地址空间；vSwitch是可用区级别的子网，Pod的IP地址从专用vSwitch中动态分配；Service CIDR则是为Kubernetes Service预留的独立IP范围，仅在集群内部生效。进行网络规划时，必须遵守三项核心约束：vSwitch的CIDR必须是VPC CIDR的子集；Service CIDR不得与任何vSwitch CIDR重叠；Service CIDR在集群创建后将无法修改。

创建ACS集群时，用户可以选择自动创建VPC，也可以复用已有的VPC资源。SNAT配置选项决定了VPC内的实例能否访问公网。如果Pod需要从公网拉取容器镜像，则需要配置NAT网关。为节省成本，推荐将容器镜像上传至与ACS集群同一地域的阿里云容器镜像服务（ACR），并通过内网VPC地址拉取镜像，从而避免公网流量费用。在可用区选择方面，建议选择多个可用区以保障高可用性，ACS会自动在每个选中的可用区下创建对应的虚拟节点。

下面是一个创建集群时网络配置的YAML格式示例，展示了通过OpenAPI调用时的参数配置：

对于跨地域或多集群部署场景，不同集群的Service CIDR可以重叠，但需要注意：Pod IP无法直接访问另一个集群的Service，只有Pod之间的流量能够跨越集群边界进行通信。

四、ACS Pod计算类型与算力配置

ACS通过Pod上的alibabacloud.com/compute-class标签来指定实例的计算类型，目前支持四种类型：通用型、性能型、GPU型和高性能网络GPU型。

通用型（general-purpose）是默认选项，适用于大部分无状态微服务应用、Java Web应用以及各类通用计算任务。性能型（performance）面向对算力要求更高的场景，例如基于CPU的AI/ML训练和推理、HPC批处理等。GPU型（gpu）和GPU-HPN型（gpu-hpn）主要服务于AI/HPC等异构计算场景，其中GPU-HPN型额外支持RDMA高速网络，更适合分布式训练和分布式推理任务。CPU资源从0.25 vCPU起步，步长为0.5 vCPU；GPU资源从1卡起步。除了计算类型，ACS还定义了服务质量等级（QoS Class），包括默认QoS和BestEffort两类。BestEffort以更低成本服务于Spark、Presto等可容忍延迟的离线批处理任务。

下面是通过Deployment YAML指定计算类型的完整示例，覆盖通用型、GPU型和GPU-HPN型三种典型场景：

在AI应用场景中，ACS GPU提供了从数据预处理、模型训练到推理部署的全流程支持。数据预处理阶段可调用海量CPU实例进行并行处理，按需启停、用完即释放。模型训练阶段支持按秒计费的GPU实例，特别适合实验调优和迭代训练。推理部署阶段则具备从零到自动扩缩的能力，无流量时实例可以缩减为零，完全不产生任何费用。

五、存储集成：基于CSI的多类型存储挂载

ACS的容器存储功能基于Kubernetes容器存储接口（CSI），深度融合了块存储、NAS、OSS等多种阿里云存储服务。存储挂载主要包含静态制备和动态制备两种方式，推荐优先使用动态制备，自动化程度更高。

以NAS存储为例，动态挂载需要先创建StorageClass定义存储的配置参数，然后创建PVC引用该StorageClass，系统会根据PVC声明自动创建PV。下面是一个NAS存储卷动态挂载的完整配置示例：

对于CPFS文件系统，静态挂载的PV定义中，需要在csi区块指定driver为nasplugin.csi.alibabacloud.com，并通过volumeAttributes中的mountProtocol: cpfs-nfs字段以及server地址来指定挂载点。需要注意的是，CPFS支持ReadWriteMany访问模式，多个Pod可以并发读写同一个持久卷。在AI模型训练场景中，建议将CPFS挂载到任意CPU类型的ACS Pod或GPU加速型ACS Pod上，以便共享训练数据和模型权重。

OSS对象存储的挂载方式与NAS类似，需要配置ossplugin.csi.alibabacloud.com作为provisioner，并通过nodePublishSecretRef从Secret中获取AccessKey用于认证授权。在挂载大语言模型文件时，由于模型体积巨大，建议创建NAS或OSS存储卷来持久化存储，避免每次部署时重复下载。

六、可观测性：监控与日志采集

ACS默认集成并开启了Prometheus服务，基于预置的监控大盘和性能指标，从K8s集群、实例Pod、应用三个维度全面监控系统运行状态。ACS集群通过alicloud-monitor-controller组件与阿里云可观测服务（托管Prometheus、日志服务SLS、云监控）深度集成，自动同步可观测配置和告警规则的完整生命周期。对于GPU加速型实例，还需要采集GPU-HPN节点的GPU相关监控指标，可以通过修改Prometheus配置来获取目标节点的Metrics数据。

日志方面，ACS集成日志服务SLS，支持应用日志、Pod实例日志、集群日志的自动采集和集中查看。在集群创建过程中，可以开启日志采集功能，系统会自动在SLS中创建相应的日志库，无需额外配置。对于自定义日志路径或结构化日志解析需求，可以通过配置Logtail采集配置来实现精细化日志管理。此处特别提醒：阿里云云监控产品计划于2026年3月起逐步下线企业云监控中的Prometheus监控、本地日志监控和SLS日志监控三个功能模块，建议用户及时迁移到托管Prometheus和SLS原生的监控方案。

七、CI/CD流水线自动化部署

将代码变更自动部署到ACS集群，是云原生开发模式的核心环节。推荐采用"GitHub Actions + 阿里云ACR + kubectl"的技术栈，来构建轻量级CI/CD流水线。整体流程如下：代码推送到GitHub仓库触发Actions工作流；工作流中登录阿里云容器镜像服务（ACR）并构建Docker镜像；将镜像推送到ACR仓库；最后通过kubectl命令更新ACS集群中的Deployment镜像版本。

下面是一个完整的GitHub Actions配置文件示例：

> $GITHUB_OUTPUT\n - name: Update ACS deployment\n uses: appleboy/kubectl-action@v0.0.1\n with:\n kube_config: ${{ secrets.KUBE_CONFIG }}\n args: set image deployment/${{ env.DEPLOYMENT_NAME }} ${{ env.DEPLOYMENT_NAME }}=${{ env.REGION }}.cr.aliyuncs.com/my-namespace/${{ env.IMAGE_NAME }}:${{ env.IMAGE_TAG }} -n default\n - name: Rollout status check\n uses: appleboy/kubectl-action@v0.0.1\n with:\n kube_config: ${{ secrets.KUBE_CONFIG }}\n args: rollout status deployment/${{ env.DEPLOYMENT_NAME }} -n default","id":"gHvYE"}">

对于更复杂的企业级交付需求，可以引入GitOps模式，使用ACK One GitOps自动同步镜像仓库中的变更至Kubernetes集群。同时，也可以基于EventBridge事件总线实现事件驱动的CI Pipeline，当代码提交到Git仓库时触发Argo Workflows执行CI任务，构建镜像并推送至ACR。这种方式在可用性、安全性和扩展性方面具有明显优势，尤其适合大规模、多团队的协作交付场景。

八、总结与最佳实践建议

综合来看，使用阿里云容器计算服务ACS时，以下最佳实践值得关注：网络规划阶段，建议使用/16或更短的VPC掩码预留充足的扩展空间；Service CIDR推荐使用非重叠的独立网段；多可用区部署可有效保障高可用性。算力选择方面，根据业务特性配置适当的计算类型标签：在线业务推荐通用型或性能型，离线批处理任务选用BestEffort QoS以降低成本。存储方面，推荐使用动态制备模式，将敏感认证信息存放在Secret中，并定期轮转。可观测性配置至少应包含CPU/内存使用率、Pod重启次数等核心告警规则，并启用SLS日志服务，方便后续问题排查。在成本优化上，充分利用秒级计费和按需伸缩的特性，结合预留实例券或节省计划，可以进一步降低长期运行的固定业务成本。

常见问答

问题一：ACS与ACK Serverless有什么区别？

答：ACS是ACK Serverless的全面升级版本，在成本效益、易用性和弹性能力方面均有显著提升，同时定义了更丰富的计算类型和服务质量等级（QoS Class），能够满足更多样化的业务场景需求。

问题二：如何在ACS中指定Pod的计算类型？

答：在Pod的metadata.labels中添加alibabacloud.com/compute-class标签，可设置为general-purpose、performance、gpu或gpu-hpn四种类型之一，根据业务负载特性选择合适的计算类型即可。

问题三：ACS支持哪些存储类型？

答：ACS基于CSI组件支持块存储、NAS文件存储、CPFS并行文件系统、OSS对象存储等多种阿里云存储服务，同时兼容Kubernetes原生的EmptyDir和ConfigMap，满足不同场景的持久化与临时存储需求。

问题四：ACS集群如何实现公网访问？

答：创建集群时开启SNAT配置，系统会自动创建NAT网关并配置SNAT规则；也可以预先创建NAT网关并手动配置SNAT。若不配置公网，可将镜像上传到同地域ACR并通过内网VPC地址拉取，从而节省公网流量成本。

问题五：ACS的监控日志功能是否需要额外配置？

答：ACS默认集成并开启Prometheus托管服务，通过alicloud-monitor-controller组件自动同步告警规则。日志方面集成SLS，可在集群创建时选择开启日志采集，系统会自动完成配置，无需额外手动干预。

问题六：如何降低ACS的使用成本？

答：充分利用秒级计费特性按需使用资源，离线任务选用BestEffort QoS以降低开销，结合预留实例券或节省计划降低长期业务成本，同时尽量使用同地域VPC内网拉取镜像以节省公网流量费用，多措并举实现成本优化。

来源：https://developer.aliyun.com/article/1741302

其他

上一篇Python AI基础教程：文件操作与数据持久化 下一篇Android Studio最实用的AI插件推荐

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。