阿里云百炼CLI从安装到图像视频语音AI Agent全指南

时间：2026-06-16 16:08

阿里云百炼CLI作为AIAgent能力调度器，集成150余款大模型与十余项原子能力，支持文本、图像、视频、语音全模态统一调用，兼容Cursor等主流框架，实现自动化编排。通过命令行即可完成安装、鉴权及图像生成编辑、视频合成、语音合成识别等操作，大幅降低集成门槛。

AI智能体（AI Agent）正深刻改变着人与大模型的交互方式，然而要让这些Agent真正“高效执行”，往往需要集成多种能力——文本对话只是基础，图像生成、视频编辑、语音合成、联网搜索等才算考验整合水平。阿里云百炼CLI（Bailian CLI）的定位，正是解决这一痛点。你可以将其理解为一个AI智能体能力调度器，它将百炼平台上150余款大模型、十余项原子能力封装成一套完整的命令行工具。无论是Cursor还是Claude Code，只需一条命令即可接入，省去繁杂的接口适配与鉴权处理。

具体来说，它的优势体现在哪些方面？第一，全模态统一调用。从文本生成到图像编辑，从视频合成到语音识别，再到视觉理解、联网搜索和知识库检索，一条命令即可搞定。第二，主流智能体（Agent）原生兼容。像Cursor、OpenClaw、Claude Code、Qoder、Cline这些主流框架，安装后即可直接使用。第三，支持自动化编排。你可以将模型、知识库、记忆、文件处理等能力组合起来，形成完整的任务流程，而非孤立的单点调用。

下面我们一步步来看，如何将它跑起来。

一、部署前准备工作

1.1 环境要求

百炼CLI基于Node.js开发，因此你需要先安装Node.js 18及以上版本。检查一下：

node -v

如果版本不够，请前往官网下载对应系统的版本安装即可。

1.2 获取阿里云百炼API Key

登录阿里云百炼控制台，进入“API密钥管理”页面，点击“创建API Key”，生成的密钥格式为sk-xxxxxx。复制并妥善保存——关闭弹窗后便无法再次查看，同时注意避免泄露。

1.3 开通百炼Token Plan（可选）

如果你计划长期稳定调用，建议开通Token Plan。它采用统一的Credits积分计费，支持全平台模型调用，尤其适合高频、多场景的使用。开通后CLI调用会自动抵扣，无需每次都按量付费。

二、百炼CLI安装与鉴权配置

2.1 安装方式（两种可选）

方式一：AI智能体一键安装（新手推荐）
如果你在使用Cursor、Qoder或Cline这类支持Skill机制的Agent，直接输入以下指令，它会自动完成安装：

请帮我全局安装阿里云百炼CLI命令行工具：npm install -g bailian-cli

安装完成后，Agent会自动在对应目录（比如~/.cursor/skills/bailian-cli/）注册Skill。

方式二：手动命令行安装（进阶用户）
打开终端，执行：

npm install -g bailian-cli && npx skills add modelstudioai/skills --all -g

安装完毕后，用bailian -v或bl -v检查是否成功。

2.2 鉴权配置（两种方式）

方式一：AI智能体配置（新手推荐）
在Agent里输入：

配置我的阿里云百炼API Key是：sk-xxxxxxxxxxxxxxxxxxxxxxxx

它会自动执行鉴权命令，绑定你的账户。

方式二：手动命令行配置（进阶用户）
在终端执行：

bl auth login --api-key sk-xxxxxxxxxxxxxxxxxxxxxxxx

完成后用bl auth status确认鉴权状态。

三、主流AI智能体接入要点

主流Agent框架通常原生兼容，安装CLI后Skill会自动注册。以下列举几个例子供参考：

3.1 Cursor

安装后Cursor会在~/.cursor/skills/bailian-cli/注册Skill，重启Cursor即可使用。示例指令：“帮我生成6张白色无线蓝牙耳机电商主图”。

3.2 OpenClaw

安装后自动加载Skill，在Web UI或终端直接输入指令即可。示例指令：“帮我生成一段30秒产品演示视频”。

3.3 Claude Code / Cline

安装后Cline注册到~/.cline/skills/bailian-cli/，直接输入指令。示例指令：“帮我将这段文案转换为语音”。

3.4 Qoder / Qwen Code

安装后自动注册，直接输入自然语言指令即可。示例指令：“帮我分析这张图片并生成描述文案”。

四、核心能力调用实操

4.1 图像生成与编辑

基础图像生成： 调用Qwen-Image 2.0模型：

bailian image generate --num 6 --prompt "白色无线蓝牙耳机，简约风格，电商主图，高清，无水印"

也可以指定模型：

bailian image generate --model qwen-image-2.0 --num 4 --prompt "科幻风格的城市夜景，赛博朋克，霓虹灯光"

图像编辑： 支持多图合并、参考图编辑：

bailian image edit --img ./original.png --prompt "将图片中的红色改为蓝色，保持其他元素不变"

bailian image edit --img ./img1.png,./img2.png --prompt "合并两张图片，生成一张包含两个主体的新图片"

4.2 视频生成与编辑

文生视频： 调用HappyHorse-1.0模型：

bailian video generate --type t2v --duration 30 --prompt "白色无线蓝牙耳机产品演示视频，展示佩戴效果、音质、续航，高清，无水印"

图生视频： 基于参考图生成动态视频：

bailian video generate --type r2v --img ./product.png --duration 20 --prompt "让图片中的产品旋转展示，添加动态光影效果"

视频编辑： 使用自然语言修改画面或剧情：

bailian video edit --video ./demo.mp4 --prompt "为视频添加中文字幕，背景音乐选择舒缓的纯音乐"

4.3 语音合成与识别

语音合成： 调用CosyVoice-v3-flash模型：

bailian speech tts --text "阿里云百炼CLI简化AI能力调用流程"

支持声音克隆：

bailian speech tts --clone ./voice_sample.wa v --text "这是克隆后的语音"

语音识别： 调用FunAudio-ASR模型：

bailian speech asr --audio ./audio.wa v

4.4 全模态对话

支持文本、图像、音频混合输入：

bailian omni --img ./product.png --prompt "分析这张图片，生成一段电商产品描述"

五、其他核心能力

5.1 文本生成

调用Qwen3.7系列：

bailian text generate --prompt "撰写一篇办公自动化工具使用说明"

5.2 联网搜索

让Agent实时获取外网信息：

bailian web search --query "2026年AI Agent发展趋势"

5.3 知识库检索

支持多模态知识库管理：

bailian rag upload --file ./document.pdf --name "企业知识库"

六、常见问题排查

6.1 安装失败

检查Node.js版本是否≥18，网络是否连通。可以尝试切换npm源：npm config set registry https://registry.npmmirror.com/。权限不足时在Linux/macOS下添加sudo。

6.2 鉴权失败

确认API Key格式为sk-xxxxxx，重新执行bl auth login --api-key YOUR_API_KEY，检查网络能否访问百炼服务。

6.3 能力调用失败

检查命令格式与参数是否完整。确认Token Plan额度充足（如果已开通）。模型名称需与百炼平台一致。重启终端或Agent，重新加载配置。

6.4 Agent无法调用CLI

使用npm list -g bailian-cli确认已全局安装。检查Skill是否注册到对应目录。重启Agent，重新加载Skill。

七、总结

阿里云百炼CLI为AI智能体提供了一个轻量、高效的接入入口。从环境准备到能力调用，再到问题排查，整个流程并不复杂。无论是个人开发者调试小项目，还是企业团队搭建复合型智能应用，它都能大幅降低集成门槛。当你真正跑通一次全模态调用后，你会发现——这个工具的价值不仅在于它“能做什么”，更在于它“让你能做什么”。后续还可以进一步探索自动化编排，将多模态能力组合到实际业务中，加速AI能力的落地。

来源：https://developer.aliyun.com/article/1741415

上一篇太极矩阵六边形拓扑重构AI推理延迟降至0.79ms 下一篇GitNexus AI智能体代码库索引知识图谱

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。