V3.2.8 数算岛开源智算平台(SSD-PAI)—— 异构算力统一调度、全流程AI研发工具链、多粒度GPU资源管理、在线开发环境、容器云架构、私有化部署、开源免费可商用
近年来,AI研发中的算力管理难题日益突出:资源碎片化严重、用户需求高度分散、运维工作量巨大、研发流程彼此割裂——这几乎是每个团队都会面临的挑战。数算岛智算平台(SSD-PAI)正是为解决上述痛点而打造的一体化解决方案。
作为一款面向智能研发场景的开源算力服务平台,SSD-PAI的代码完全开源、无加密,并支持免费商用,特别适合高校、科研院所、企业研发团队以及独立开发者快速构建统一的算力管理平台。其核心思路非常直接:将分散的异构算力资源进行整合,化零为整,实现统一管理与调度,从而大幅提升整体资源利用率。对用户而言,这意味着可以拥有一个可伸缩、可定制、相对隔离且开箱即用的在线计算环境,覆盖从数据准备、运行环境配置、模型训练到成果归档与复用的完整研发流程。
SSD-PAI智算平台总体架构示意图
技术架构
从技术层面来看,SSD-PAI基于容器云微服务架构构建,前后端分离,设计层次清晰。底层打通了多类型的异构算力资源,上层则覆盖了数据管理、环境定制、模型训练、成果沉淀等全研发链路。整个平台采用Web化全在线模式,用户只需一个浏览器即可使用全部功能——无论何时何地,只要有网络即可接入。
更为关键的是,平台架构灵活可扩展,支持私有化部署和功能定制,能够适配不同规模团队的算力管理需求。如果团队有二次开发的打算,整体架构也便于进行深度定制和扩展。
核心功能
平台的各项能力覆盖了从资源层、环境层、工具层到生态层的完整链路,下面逐一介绍。
异构算力统一管理与调度
支持接入多集群算力资源,打破算力孤岛,实现统一管控。无论是不同型号的GPU、CPU还是内存,平台均能统一纳管,用户只需按需指定资源类型,系统自动完成调度分配。算力整合与高效利用是平台的基础能力。
异构算力统一管理调度界面
丰富便捷的在线研发环境
内置了云桌面、Jupyter、SSH、Web IDE、Web Terminal、低代码拖拉拽流程建模等多种开箱即用的算力使用环境,可满足不同研发场景的需求。例如,想快速跑一个实验可直接打开Jupyter;需要复杂可视化流程建模则用低代码工具拖拽即可。此外,平台还支持一键导入社区开源的Docker镜像,无需额外改动即可在线使用,大大降低了环境配置门槛。
在线研发环境选择与使用示意
全流程研发工具支撑
提供数据标注、离线运行、训练记录、GPU分布式计算等工具与框架支持。从数据准备、运行环境搭建、模型训练到成果归档与复用,整个研发闭环均能在平台上完成。同时,配套的数据集、镜像、项目、模型等全生命周期管理能力,让研发过程的每个环节都可追溯、可复用。
全流程研发工具链界面
精细化资源配额管理
管理员可以为用户或用户组设置资源的总体配额以及单个项目的资源上限,对CPU、内存、GPU等资源进行精准管控。更灵活的是,平台支持自动、手动、延迟等多种资源释放策略,还可设置项目的最长运行时长,到期后自动回收资源。这样做的好处是:既保障了用户的使用体验,又大幅提升了资源的周转效率。
资源配额管理设置界面
开放共享的研发生态
支持模型、项目、数据集、软件镜像等科研成果的公开与复用。内置的应用中心允许开发者发布自己的服务与应用,促进成果交流和科研协作。配套的多粒度资源监控能力,则支撑起团队的协同研发和资源统筹。
开放共享研发生态示意
多粒度GPU算力适配
支持vGPU切分技术,单张显卡可分配给多个用户同时使用;同时支持GPU分布式计算,单任务多卡并行不在话下。无论是个人轻量研发还是大规模模型训练,平台都有对应的适配方案。
vGPU切分与分布式计算示意
GPU资源分配与监控界面
多粒度GPU算力适配演示
系统优势
成熟稳定的容器云架构
基于容器云构建资源调度体系,搭配微服务化的后端,调度灵活高效,系统稳定可靠。承载大规模算力资源和多用户同时在线使用是平台的基础能力。
全链路研发能力覆盖
从数据管理、环境配置、模型训练到成果沉淀,平台提供完整的研发工具链,无需搭配多个第三方工具,一站式即可满足AI研发的全流程需求。
灵活精细的资源管控
多维度配额管理和多样化的释放策略,兼顾了使用灵活性和资源利用率。无论是团队级、部门级还是院校级的算力管理场景都能适配。
低门槛开箱即用
全Web化操作界面,预置了大量主流镜像和算法模型。用户无需进行复杂的本地环境配置,浏览器接入即可开始研发工作。使用门槛低,上手速度快。
开放共享的生态能力
成果共享、应用发布、社区开源资源复用全部支持。同时,私有化的镜像仓库可保障内部资产安全。
高可用与灵活部署
支持私有化部署,适配公有云、私有云、自有IDC等多种基础设施环境。架构可扩展,能够随业务规模弹性扩容,满足不同阶段的使用需求。
技术特点
运行环境及框架
前端完全采用Web化设计,兼容主流浏览器;后台基于微服务架构与容器云技术构建,支持Docker容器化部署;算力层支持多型号GPU异构接入,兼容vGPU切分与分布式计算。运行环境方面,支持Linux服务器部署,适配公有云、私有云、物理服务器等多种基础设施。运行条件需要Docker环境、Kubernetes集群以及对应的数据库和缓存服务。
核心技术栈清单
容器云调度:Docker + Kubernetes
后端微服务:Spring Boot + Spring Cloud
前端框架:Vue + ElementUI
数据库:MySQL + Redis
GPU能力:vGPU切分、分布式计算支持
开发环境:Jupyter、Web IDE、云桌面
镜像管理:私有化镜像仓库
资源监控:多粒度资源监控与告警
平台核心模块
ssdpai-control:控制中心服务,负责平台核心管控与业务调度
ssdpai-scheduler:资源调度服务,负责算力资源分配与生命周期管理
ssdpai-datamgr:数据管理服务,负责数据集上传、预览与标注管理
ssdpai-model:模型管理服务,负责模型仓库与成果入库管理
ssdpai-image:镜像管理服务,负责镜像定制与私有仓库管理
ssdpai-web:WEB程序PC端管理与研发前端工程
ssdpai-docs:文档,包含部署文档、使用文档、二开文档
ssdpai-deploy:部署脚本,容器化部署与环境配置脚本
系统演示
部署完成后,通过Web端访问平台,即可体验全部算力管理与研发功能。
项目资料
资料支持
源码仓库:Github主仓库与Gitee镜像仓库同步更新。使用文档在部署完成后可通过平台内置的使用指南查看。部署文档提供了配套的详细容器化部署教程和环境配置说明。二开文档则支持基于开源源码进行功能定制与扩展。
部署说明
平台支持容器化快速部署,按照部署文档配置对应基础设施后即可完成搭建,快速上线使用。
核心功能全景图
| 算力服务 | 研发支撑 | 资源管理 | 平台能力 |
|---|---|---|---|
| 异构算力统一接入 | Jupyter在线环境 | 多维度配额管理 | 全Web化访问 |
| vGPU切分调度 | Web IDE开发环境 | 资源释放策略 | 多租户隔离 |
| GPU分布式计算 | 3D云桌面环境 | 运行时长管控 | 团队协同支持 |
| 多集群统一管理 | SSH远程连接 | 用量统计监控 | 离线任务支持 |
| 资源弹性伸缩 | 低代码流程建模 | 项目资源上限 | 插件扩展能力 |
| 硬件状态监控 | Web终端工具 | 用户组权限管理 | 页面风格定制 |
| 数据与模型 | 镜像与环境 | 部署与运维 | 生态与价值 |
|---|---|---|---|
| 多源数据集管理 | 预置主流镜像 | 容器化部署 | 成果共享复用 |
| 数据在线预览 | 在线镜像定制 | 私有化部署 | 应用中心生态 |
| 数据在线标注 | 私有镜像仓库 | 系统监控告警 | 研发效率提升 |
| 预设算法模型 | Docker镜像兼容 | 备份与恢复 | 算力利用率提升 |
| 模型入库管理 | 环境一键复用 | 日志管理 | 研发流程闭环 |
| 模型文件预览 | 环境版本追溯 | 定时任务 | 降低运维成本 |
