2025年2月18日,阶跃星辰正式宣布开源两款Step系列多模态模型——Step-Video-T2V视频生成模型与Step-Audio语音交互模型,发布后迅速引发业界广泛关注。
更值得关注的是,用户可直接通过火山引擎机器学习平台快速部署并体验这两款模型。该平台提供一键部署能力,使开发者能够将精力集中于创新,而非基础设施搭建。
火山引擎机器学习平台简介
火山引擎机器学习平台(veMLP)是企业级开发平台,专为机器学习应用开发者设计。它集成了开发机、自定义任务、在线服务等丰富建模工具,并提供多框架高性能模型推理服务。简单来说,数据托管、代码开发、模型训练到模型部署——整个全生命周期的工作流程,均可在该平台上高效完成。
veMLP一键部署Step-Video-T2V模型
Step-Video-T2V 模型
Step-Video-T2V模型拥有高达300亿的参数规模。这使其能够直接生成204帧、540P分辨率的高质量视频,并确保视频内容具备极高的信息密度与出色的一致性。根据当前评测结果,该模型已是全球参数最大、性能领先的开源视频生成大模型。
为客观评估开源视频生成模型性能,阶跃还发布并开源了专门针对文生视频质量评测的新基准数据集——Step-Video-T2V-Eval。该测试集包含128条基于真实用户需求的中文评测题目,覆盖运动、风景、动物、组合概念、超现实、人物、3D动画、电影摄影等11大内容类别,评测维度相当全面。
评测结果极具说服力:Step-Video-T2V在指令遵循、运动平滑性、物理合理性、美感度等关键指标上,全面超越市面上现有的顶尖开源视频模型。数据本身即为明证。
使用 veMLP 快速入门
第一步:登录火山引擎机器学习平台,在左侧导航栏点击「快速入门」,选择Step-Video-T2V卡片。
第二步:点击右上角「在开发机中打开」,使用预制镜像,并选择4卡或8卡80G显存GPU计算规格。
第三步:根据「使用指南」进行基准测试。
第四步:使用「在线服务」进行推理部署。
veMLP一键部署 Step-Audio 模型
Step-Audio 模型
Step-Audio是业界首个产品级开源语音交互模型。它能够根据场景需求,生成不同情绪、方言、语种、歌声及个性化风格的表达。简而言之,它能实现自然流畅、高情商的对话,真正达到听声如面的效果。此外,该模型还支持不同角色的音色克隆,在影视娱乐、社交、游戏等行业场景中具有巨大潜力。
使用 veMLP 快速入门
第一步:登录火山引擎机器学习平台,在左侧导航栏点击「快速入门」,选择Step-Audio卡片。
第二步:点击右上角「在开发机中打开」,使用预制镜像并选择4卡或8卡80G显存GPU计算规格。
第三步:根据「使用指南」进行基准测试。
第四步:使用「在线服务」进行推理部署。
火山引擎依托字节跳动的技术积累与丰富经验,长期以技术驱动方式打造高性价比的部署方案。这种以模型为核心的AI云原生技术,正持续助力企业加快AI转型进程。
