先抛个结论:即使是相同的模型,一旦采用不同的工程策略,最终交付质量的差距可能高达“十几到几十个百分点”。这并非模型选型的问题,而是流程设计的差异。下面这份“策略选择指南”已按任务类型为你匹配对应方案,省去自行反复试错的麻烦。
你真正需要对比的不是“模型强弱”,而是“流程强弱”
原文测试了三类关键工作流:

- 同模态基线(仅语音/仅视觉/仅文件)
- 融合基线(语音+视觉+文件同会话,不加工程约束)
- 工程增强基线(分步指令/中间校验/片段定位)
其中最值得关注的对比,来自三套工程策略:
1) 状态机式(S0/S1/S2/S3)
2) 自由对话式
3) 两段式(用于严格结构化输出/修复建议)
维度1:证据可追溯性(Evidence Consistency)
字段映射任务实测:
| 条件 | Evidence Consistency |
|---|---|
| 语音+视觉+文件(带证据要求) | 92% |
| 不要求证据定位 | 约88% |
结论非常明确:仅结果相似还不够,证据必须可对应。证据定位这一环节,必须写入提示词或结构设计中,否则很容易出现偏差。
维度2:跑偏率与稳定性(Success)
状态机式 vs 自由对话式(同类字段映射/融合任务):
| 方式 | Success | Evidence Consistency |
|---|---|---|
| 状态机式 | 10/10 | 91–93% |
| 自由对话式 | 8/10 | 82–86% |
由此可见,当任务涉及跨模态、证据链条长且约束较多时,状态机式几乎扮演着“稳定器”的角色。自由对话虽然灵活,但在此类场景下成功率直接下降了20%。
维度3:结构输出合规率(JSON/表格/清单)
两段式 vs 一步到位(长文档+截图异常格式→JSON修复建议):
| 策略 | Success | JSON 合规率 |
|---|---|---|
| 一步到位 | 7/10 | 75% |
| 两段式(先定位异常点+规则编号,再生成) | 10/10 | 92% |
因此,在需要输出严格schema的场景中,切勿尝试一步到位。两段式才是明智之选——先完成证据定位,再生成结构化内容。
三种策略该怎么选?给你一份“场景选择表”
方案A:状态机式(S0/S1/S2/S3)
适合:
- 需要“意图→视觉对齐→文件证据→最终交付”的完整链路
- 结果必须可追溯:字段映射表、合规校验清单、审阅记录
选择理由:实测中 Evidence Consistency 提升至 91–93%,Success 稳定在 10/10。
方案B:自由对话式
适合:
- 只需大致总结,无需结构化交付
- 证据核对并非硬性需求
风险:
- 字段遗漏/证据匹配错误的概率更高
- 同类任务 Success 从 10/10 降至 8/10(母版数据)
方案C:两段式(证据定位段 + 结构生成段)
适合:
- JSON/表格/清单等严格结构化输出
- 文档抽取与截图异常修复建议
选择理由:JSON 合规率从 75% 提升至 92%。
视觉策略补充:可读性要求能显著降低错误
对比数据(视觉噪声)非常直观:
| 视觉条件 | Success | Field Acc |
|---|---|---|
| 清晰截图 | 10/10 | 94% |
| 遮挡(截掉一半) | 6/10 | 78% |
| 加可见性要求后 | 遮挡 Success 从 6/10 → 8/10 | — |
工程化建议:
在提示中加入 [UNSURE] 占位符以及补图位置要求,避免模型在不可读区域进行“硬猜”。
最终建议:把模型当执行器,把流程当质量控制
- 要稳定:选用状态机式
- 要结构:选用两段式
- 要可追溯:将证据定位写入 schema
- 要稳视觉:加入可读性要求
如果你希望将这些策略封装成统一链路,减少不同项目间重复调整提示的麻烦,可以尝试聚合工作流的接入方式。
