OpenAI 的 o1 推理模型正式发布,这款基于强化学习训练的大规模模型,在多项基准测试中直接展现出博士级别的推理能力——某些场景下的表现甚至能与人类专家相媲美。

实际使用 o1 模型时,用户很快会发现官方文档中新增了一项提示词使用建议。
翻译过来就是:
""" 这些模型在面对简洁明了的提示词时表现最佳。一些传统提示词工程技巧,比如少样本学习或要求模型“逐步思考”,反而可能不会提升性能,甚至降低其效果。
以下是一些最佳实践建议:
- 提示词保持简洁直接:这些模型擅长处理简洁清晰的指令,无需过多额外指导。
- 避免链式思考(CoT)提示:既然这些模型内部已具备自主推理能力,再要求“逐步思考”或“解释推理过程”反而成为多余。
- 利用分隔符提升输入清晰度:用三重引号、XML标签或章节标题等分隔符明确区分输入的不同部分,帮助模型准确解读。
- 在RAG检索中限制上下文信息:提供文档时只保留最相关的核心内容,避免模型过度反应。
与之前常见的提示词工程技巧相比,除了使用分隔符这一条依然有效外,少样本学习、链式思考(CoT)、RAG 等经典方法在 o1 模型上反而可能产生负面效果。因此,业内开始出现一种声音:提示词工程或许已经走向终结。
然而换个角度来看,这恰恰说明提示词工程并非被削弱,而是提升了门槛。未来不同的大模型各有其特性,提示词的编写方式也需要随之调整。例如,Anthropic 旗下 Claude 模型的工程师在讨论 prompt 时就明确表示——无需进行角色扮演。
这正是提示词工程师的核心价值所在:理解不同模型之间的差异,并能针对每个模型量身定制最稳定高效的提示词。
最近,一个名为“汉语新解”的 prompt 在 AI 圈内备受关注,用户输入任意词语即可生成卡片式释义。该 prompt 在 Claude 3.5 上表现非常出色,但一旦切换到其他模型,输出结果往往不够稳定。归根结底,每个模型都有其独特的特性,最稳妥的方式就是遵循官方指南。
以 o1 模型为例,OpenAI 专门提供了 Cookbook 页面,其中包含大量实际案例可供直接参考和学习。
