火山引擎Agent Plan实战：从编码到全模态智能优势解析

时间：2026-05-30 12:31

说到 Coding Plan，大家可能都不陌生。不过火山引擎又搞了个新花样——Agent Plan，直接把这个概念推到了另一个维度： Agent Plan = Coding Plan + Image生成 + Video生成 + 其他工具链（顺便提一句，豆包 TTS 2 0 这个性价比之王居然没被加

说到 Coding Plan，大家可能都不陌生。不过火山引擎又搞了个新花样——Agent Plan，直接把这个概念推到了另一个维度：

（顺便提一句，豆包 TTS 2.0 这个性价比之王居然没被加进来，有点可惜。）

这样一来，你就不需要为每个 AIGC 服务单独去接一套 API 了。对于需要整合多模态能力的开发者而言，这无疑是重大利好。

之前为了搭建自媒体工作流，曾经封装过一套包含 20 多个技能（skills）的工具集合，覆盖文本、视频、图片等几乎所有 AIGC 工具。现在利用 Agent Plan，这些技能的安装和适配变得格外顺畅。

先来看第一部分：如何获取和配置 Agent Plan。

第一部分：获取和配置 Agent Plan

获取 Agent Plan

访问火山方舟 Agent Plan 页面：https://www.volcengine.com/activity/agentplan

目前官方提供了几个付费档位，最低档用不了 Seedance（不能生成视频的 Agent 不完整），Medium 及以上档位会赠送一个 ArkClaw 轻量版实例。

注意：Agent Plan 引入了 AFP（Agent Fuel Points，Agent 燃料值）作为统一的资源计量单位。本质上就是一种 Credits 体系——5小时 1万点，每周 3.5万点，每月 10万点。后面会实测不同任务中 AFP 的消耗量。

配置 Agent Plan

将 Agent Plan 配置到已有的 Agent 上

以 Hermes Agent 为例，官方其实已经提供了不错的文档（volcengine.com/docs/82379/2373743），但还是在这里带大家走一遍完整流程。

方法一：使用 Ark Helper

在 Agent 所在机器的终端中输入指令：

curl -fsSL https://lf3-static.bytednsdoc.com/obj/eden-cn/ylwslo-yrh/ljhwZthlaukjlkulzlp/install.sh | sh

验证安装：

ark-helper --version

运行 ark-helper 命令，会弹出 TUI 界面，选择中文，回车：

ark-helper

确认 Agent 已经切换到了 ark-code-latest 模型。

方法二：手动配置

如果不打算用 ark-helper，也可以手动配置 custom endpoint，步骤如下：

在命令行输入（假设是 Hermes Agent）：

hermes model

按空格键：

输入 custom endpoint：

https://ark.cn-beijing.volces.com/api/plan/v3

回车确认：

以上以 Hermes Agent 为例，其他 Agent 可以访问火山引擎官方文档（volcengine.com/docs/82379/2373738）查看详细教程。

ArkClaw

除了自己的 Agent，还可以使用官方的 ArkClaw：

访问 https://console.volcengine.com/arkclaw/management

第二部分：玩转 Agent Plan

部分案例基于飞书 + Hermes/OpenClaw，部分基于 ArkClaw 网页版，模型采用 ark-code-latest，偶尔会在控制台切换到特定的原生多模态模型执行特定任务，后文不再另行说明。

案例1：自媒体工作流 skills 的安装和适配

先让 Agent 将 Draco-Skill-Collection 仓库中的 skills 安装好。

速度非常快，20 个左右的 skills，大概两三分钟就搞定了。

然后，让 Agent 在 GitHub 仓库里创建一个 Agent Plan 专用 Skills 集合并完成所有 Skills 的改造以适配。比如用 Seedream 替换原来的生图工具，以及 Agent Plan 自带的 Seedream/Seedance 代替需要通过 API KEY 打通的版本等。

唯一例外的是目前 Agent Plan 不支持火山引擎 TTS，因此需要通过下面的方式将参数传入：

openclaw config set env.VOLCENGINE_ACCESS_TOKEN "你的ACCESS TOKEN"
openclaw config set env.VOLCENGINE_TTS_APP_ID "你的TTS APP ID"
openclaw config get env

截止目前，以上任务一共消耗 AFP 点数约 1400 左右。

案例2：多模态网站构建

Agent Plan 中最重要的是什么？多模态能力！对应的是字节家的 Seedream 5.0（生图）和 Seedance 2.0（生视频）。

小试牛刀，先来画个折纸女孩：

注意：如果你的 OpenClaw/Hermes 无法识别 Seedream 和 Seedance，告诉 Agent 用下面指令自己重新安装一下这两个 skills：

npx skills add https://skills.volces.com/skills/volcengine/agentplan -s byted-ark-seedance-skill --agent openclaw
npx skills add https://skills.volces.com/skills/volcengine/agentplan -s byted-ark-seedream-skill --agent openclaw

这个 skill 默认支持 OpenClaw，如果 Hermes 不够聪明，提醒它把这两个 skills 安装到自己的 workspace 下面即可。

一张图片大概消耗几十个 AFP 值，生成视频会消耗几百个 AFP 值，具体数值与图片/视频的分辨率、时长等相关。

接下来，完成一个多模态网站的任务：“动漫风格馆”。让 Agent 利用 Seedream 5.0 和 Seedance 2.0 生图和生视频的能力，制作一个汇聚全球著名动漫风格的网站。

网站已上线：https://dracohu2025-cloud.github.io/manga-style-gallery/

（HERO Video，请忽略两个绿巨人的问题。）

案例1和案例2合在一起，基本意味着你可以把飞书 + Agent Plan 当成自己的“数字座舱”，可以写文章、推送到公众号、生成播客、生成图片、生成视频、创建多模态网站……在这个过程中，几乎不需要触碰若干个不同工具的 GUI，只需要和 Agent 交互就能得到想要的一切。

案例3：专业数据查询

首先，打开 ArkClaw 的“专业数据库”功能：

Case1：

帮我从中国金融数据集中查询和分析招商银&行过去5年的盈利能力是否承压

ArkClaw 输出内容如下：

招商银&行过去5年盈利能力核心指标

注：2025年数据为全年数据，统计截止2025年12月31日

关键发现与分析

1. 净资产收益率（ROE）持续下行，盈利能力承压明显

从2021年的16.96%下降至2025年的13.44%，5年累计下降3.52个百分点
下降趋势持续且稳定，表明核心盈利能力面临较大压力
2024-2025年下降速率有所放缓，但整体下行趋势未变

2. 净利润增长陷入停滞

2023年净利润同比增速降至0%，增长陷入停滞
2024-2025年虽恢复正增长，但增速仅约1.2%，远低于2021年23.2%的高增速
营收在2024-2025年连续两年维持3375亿元水平，规模增长乏力

3. 净利率逆势提升，成本管控成效显著

净利率从2021年的36.18%提升至2025年的44.77%
银&行通过优化成本结构、提升运营效率来对冲营收增长乏力的压力
这也是净利润维持正增长的主要支撑因素

4. 总资产收益率同步下行

2025年总资产收益率仅1.20%，低于2024年的1.29%
反映出银&行整体资产运用效率有所下降

⚠️ 主要压力来源分析

宏观经济环境：经济增速放缓导致有效信贷需求不足
利率市场化：LPR持续下行，净息差收窄压力较大
行业竞争加剧：银&行业同质化竞争激烈，零售业务面临多方挑战
资产质量压力：房地产等领域风险暴露，拨备计提压力增加

结论

招商银&行过去5年盈利能力确实面临持续承压，主要体现为：

✅ ROE持续下行：从16.96%降至13.44%，核心盈利能力减弱
✅ 增长动能不足：营收增长停滞，净利润增速大幅放缓
✅ 效率支撑利润：净利率提升主要依靠成本管控，而非收入端扩张

虽然通过精细化管理维持了净利率的提升，但核心盈利能力指标ROE的持续下行反映了银&行业整体面临的经营困境。未来招商银&行需要在财富管理、零售银&行等优势领域进一步突破，寻找新的盈利增长点。

Case2：

企业风险数据集：恒大集团涉及多少起诉讼？分别是什么类型的案件？有多少是已结案的？

对于此类数据诉求，这里就不展开更多案例了。

写在最后

从3月底开始使用 Hermes 以来，每天跟 Agent 打交道的时间可能已经超过了6小时，甚至大幅度超过了和人交互的时间。在这个过程中，有一个强烈的感受：

Agent 这场战争，全模态者为王！

在全模态都拥有 SOTA 模型的厂商将获得最终的胜利。海外的话，OpenAI 有这个优势——这就是为什么很多人觉得用了 Codex 之后就回不去 Claude Code 了。GPT-5.5 的 coding 能力强是一方面，另一方面是在 coding 过程中 GPT-Image-2 能直接帮你把视觉物料都准备好，真正实现一站式 coding。

再看国内，目前字节领先：编程、绘图、视频、音频等模型在各细分领域都基本处在第一梯队；阿里紧随其后；然后是逐渐发力的腾讯和同样拥有全模态能力的 MiniMax 并列第三。其他家基本都还在卷大模型的编程能力。但各家编程能力不相伯仲的那天，图片、视频、音频等内容的生成能力才是胜负手——毕竟，人本来就是多模态生物，能看到能听到才是关键。

来源：https://www.aixq.cc/30862.html

Agent Plan

上一篇姑苏论道百视通副总裁卢刚AI入屏万象生新 下一篇问界M9发布会改期被疑避让蔚来ES9 鸿蒙智行称为优化体验

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。