说到 Coding Plan,大家可能都不陌生。不过火山引擎又搞了个新花样——Agent Plan,直接把这个概念推到了另一个维度:
Agent Plan = Coding Plan + Image生成 + Video生成 + 其他工具链
(顺便提一句,豆包 TTS 2.0 这个性价比之王居然没被加进来,有点可惜。)
这样一来,你就不需要为每个 AIGC 服务单独去接一套 API 了。对于需要整合多模态能力的开发者而言,这无疑是重大利好。
之前为了搭建自媒体工作流,曾经封装过一套包含 20 多个技能(skills)的工具集合,覆盖文本、视频、图片等几乎所有 AIGC 工具。现在利用 Agent Plan,这些技能的安装和适配变得格外顺畅。
先来看第一部分:如何获取和配置 Agent Plan。
第一部分:获取和配置 Agent Plan
获取 Agent Plan
- 访问火山方舟 Agent Plan 页面:https://www.volcengine.com/activity/agentplan
目前官方提供了几个付费档位,最低档用不了 Seedance(不能生成视频的 Agent 不完整),Medium 及以上档位会赠送一个 ArkClaw 轻量版实例。
注意:Agent Plan 引入了 AFP(Agent Fuel Points,Agent 燃料值)作为统一的资源计量单位。本质上就是一种 Credits 体系——5小时 1万点,每周 3.5万点,每月 10万点。后面会实测不同任务中 AFP 的消耗量。
配置 Agent Plan
将 Agent Plan 配置到已有的 Agent 上
以 Hermes Agent 为例,官方其实已经提供了不错的文档(volcengine.com/docs/82379/2373743),但还是在这里带大家走一遍完整流程。
方法一:使用 Ark Helper
- 在 Agent 所在机器的终端中输入指令:
curl -fsSL https://lf3-static.bytednsdoc.com/obj/eden-cn/ylwslo-yrh/ljhwZthlaukjlkulzlp/install.sh | sh
- 验证安装:
ark-helper --version
- 运行 ark-helper 命令,会弹出 TUI 界面,选择中文,回车:
ark-helper
确认 Agent 已经切换到了 ark-code-latest 模型。
方法二:手动配置
如果不打算用 ark-helper,也可以手动配置 custom endpoint,步骤如下:
- 在命令行输入(假设是 Hermes Agent):
hermes model
- 按空格键:
- 输入 custom endpoint:
https://ark.cn-beijing.volces.com/api/plan/v3
- 回车确认:
以上以 Hermes Agent 为例,其他 Agent 可以访问火山引擎官方文档(volcengine.com/docs/82379/2373738)查看详细教程。
ArkClaw
除了自己的 Agent,还可以使用官方的 ArkClaw:
第二部分:玩转 Agent Plan
部分案例基于飞书 + Hermes/OpenClaw,部分基于 ArkClaw 网页版,模型采用 ark-code-latest,偶尔会在控制台切换到特定的原生多模态模型执行特定任务,后文不再另行说明。
案例1:自媒体工作流 skills 的安装和适配
- 先让 Agent 将 Draco-Skill-Collection 仓库中的 skills 安装好。
速度非常快,20 个左右的 skills,大概两三分钟就搞定了。
- 然后,让 Agent 在 GitHub 仓库里创建一个 Agent Plan 专用 Skills 集合并完成所有 Skills 的改造以适配。比如用 Seedream 替换原来的生图工具,以及 Agent Plan 自带的 Seedream/Seedance 代替需要通过 API KEY 打通的版本等。
唯一例外的是目前 Agent Plan 不支持火山引擎 TTS,因此需要通过下面的方式将参数传入:
openclaw config set env.VOLCENGINE_ACCESS_TOKEN "你的ACCESS TOKEN"
openclaw config set env.VOLCENGINE_TTS_APP_ID "你的TTS APP ID"
openclaw config get env
- 截止目前,以上任务一共消耗 AFP 点数约 1400 左右。
案例2:多模态网站构建
Agent Plan 中最重要的是什么?多模态能力!对应的是字节家的 Seedream 5.0(生图)和 Seedance 2.0(生视频)。
- 小试牛刀,先来画个折纸女孩:
注意:如果你的 OpenClaw/Hermes 无法识别 Seedream 和 Seedance,告诉 Agent 用下面指令自己重新安装一下这两个 skills:
npx skills add https://skills.volces.com/skills/volcengine/agentplan -s byted-ark-seedance-skill --agent openclaw
npx skills add https://skills.volces.com/skills/volcengine/agentplan -s byted-ark-seedream-skill --agent openclaw
这个 skill 默认支持 OpenClaw,如果 Hermes 不够聪明,提醒它把这两个 skills 安装到自己的 workspace 下面即可。
一张图片大概消耗几十个 AFP 值,生成视频会消耗几百个 AFP 值,具体数值与图片/视频的分辨率、时长等相关。
- 接下来,完成一个多模态网站的任务:“动漫风格馆”。让 Agent 利用 Seedream 5.0 和 Seedance 2.0 生图和生视频的能力,制作一个汇聚全球著名动漫风格的网站。
网站已上线:https://dracohu2025-cloud.github.io/manga-style-gallery/
(HERO Video,请忽略两个绿巨人的问题。)
案例1和案例2合在一起,基本意味着你可以把飞书 + Agent Plan 当成自己的“数字座舱”,可以写文章、推送到公众号、生成播客、生成图片、生成视频、创建多模态网站……在这个过程中,几乎不需要触碰若干个不同工具的 GUI,只需要和 Agent 交互就能得到想要的一切。
案例3:专业数据查询
- 首先,打开 ArkClaw 的“专业数据库”功能:
Case1:
帮我从中国金融数据集中查询和分析招商银&行过去5年的盈利能力是否承压
ArkClaw 输出内容如下:
招商银&行过去5年盈利能力核心指标
注:2025年数据为全年数据,统计截止2025年12月31日
关键发现与分析
1. 净资产收益率(ROE)持续下行,盈利能力承压明显
- 从2021年的16.96%下降至2025年的13.44%,5年累计下降3.52个百分点
- 下降趋势持续且稳定,表明核心盈利能力面临较大压力
- 2024-2025年下降速率有所放缓,但整体下行趋势未变
2. 净利润增长陷入停滞
- 2023年净利润同比增速降至0%,增长陷入停滞
- 2024-2025年虽恢复正增长,但增速仅约1.2%,远低于2021年23.2%的高增速
- 营收在2024-2025年连续两年维持3375亿元水平,规模增长乏力
3. 净利率逆势提升,成本管控成效显著
- 净利率从2021年的36.18%提升至2025年的44.77%
- 银&行通过优化成本结构、提升运营效率来对冲营收增长乏力的压力
- 这也是净利润维持正增长的主要支撑因素
4. 总资产收益率同步下行
- 2025年总资产收益率仅1.20%,低于2024年的1.29%
- 反映出银&行整体资产运用效率有所下降
⚠️ 主要压力来源分析
- 宏观经济环境:经济增速放缓导致有效信贷需求不足
- 利率市场化:LPR持续下行,净息差收窄压力较大
- 行业竞争加剧:银&行业同质化竞争激烈,零售业务面临多方挑战
- 资产质量压力:房地产等领域风险暴露,拨备计提压力增加
结论
招商银&行过去5年盈利能力确实面临持续承压,主要体现为:
- ✅ ROE持续下行:从16.96%降至13.44%,核心盈利能力减弱
- ✅ 增长动能不足:营收增长停滞,净利润增速大幅放缓
- ✅ 效率支撑利润:净利率提升主要依靠成本管控,而非收入端扩张
虽然通过精细化管理维持了净利率的提升,但核心盈利能力指标ROE的持续下行反映了银&行业整体面临的经营困境。未来招商银&行需要在财富管理、零售银&行等优势领域进一步突破,寻找新的盈利增长点。
Case2:
企业风险数据集:恒大集团涉及多少起诉讼?分别是什么类型的案件?有多少是已结案的?
对于此类数据诉求,这里就不展开更多案例了。
写在最后
从3月底开始使用 Hermes 以来,每天跟 Agent 打交道的时间可能已经超过了6小时,甚至大幅度超过了和人交互的时间。在这个过程中,有一个强烈的感受:
Agent 这场战争,全模态者为王!
在全模态都拥有 SOTA 模型的厂商将获得最终的胜利。海外的话,OpenAI 有这个优势——这就是为什么很多人觉得用了 Codex 之后就回不去 Claude Code 了。GPT-5.5 的 coding 能力强是一方面,另一方面是在 coding 过程中 GPT-Image-2 能直接帮你把视觉物料都准备好,真正实现一站式 coding。
再看国内,目前字节领先:编程、绘图、视频、音频等模型在各细分领域都基本处在第一梯队;阿里紧随其后;然后是逐渐发力的腾讯和同样拥有全模态能力的 MiniMax 并列第三。其他家基本都还在卷大模型的编程能力。但各家编程能力不相伯仲的那天,图片、视频、音频等内容的生成能力才是胜负手——毕竟,人本来就是多模态生物,能看到能听到才是关键。
