当你点开这个标题时,心中是充满质疑、不屑,还是感到惊讶?坦白说,我们最初读到这篇学术论文时,也是类似的反应。但在完成实际项目测试之后,我们不得不承认——Prompt 工程师这个职业,大概率要走向终结。更准确地说,或许 90% 的提示词工程师岗位,都将不复存在。
长期以来,学术研究与实际产品中的提示词优化严重脱节。在真实的应用场景下,大量产品聚焦于情感陪伴、文案生成这类开放性任务——而学术界的评价体系却只盯着“刷榜”:如何提升模型的代码或数学能力。对普通用户而言,这些量化指标毫无意义。另一个矛盾是,传统的 Prompt 优化方法通常需要海量标注数据,但在现实项目中,哪来那么多资源?能拿到五个优质的用户案例就已经算相当不错了。
那么问题来了:有没有一个方案,既不需要大量标注数据,又能有效优化开放任务和推理任务?
答案是肯定的。我们这次要介绍的项目叫 SPO,全称并不重要,关键在于它把上述难题全部解决了。只有三个案例可以参考?没问题,即使没有案例也能自动优化。想要定制情感陪伴?任何风格的对话都能轻松打造。不会撰写爆款文案?提供几个参考模板,立刻生成专属指令。还没确定最终效果?没关系,系统会自动优化直到你满意为止,这次你当甲方,挑选自己喜欢的就行。担心成本?整个优化流程花费不到一块钱。怕耗时长?五分钟左右即可完成,全程流畅高效。以上所述没有任何夸张。我们认为,也许 Prompt Engineer 并非真的消失,而是以更高效的方式进化了。
效果
废话不多说,直接展示实际效果最为直观。我们测试了“R1 回答能力模仿”、“小红书文案模仿”以及“女友扮演”这几个最受关注的场景,分别在 GPT-4o-mini 和 Deepseek-V3 上运行。结果发现,仅需五分钟的自动优化,就能达到业内顶尖的 Prompt 水准。所有实验都录制了完整的一镜到底视频,详见“完整实验过程”部分。
案例一:深度思考
很多用户喜欢 R1 那种富有哲理性的回答和出色的写作技巧,因此我们尝试用这个项目提升 GPT-4o-mini 在哲理表达方面的表现。之所以没有选用 Deepseek-V3,是因为同属一家公司,需要避嫌——万一它在训练时偷看了标准答案呢。初始 Prompt 如下:
尽可能多思考,给出最好的答案。使用 thinking response 和 封装思考和回答。
这是 SPO 最后优化出的 Prompt(此处省略具体文本)。我们在不同问题上进行了测试,仅展示 Answer 部分进行对比:
问题一:你觉得 AI 是否有思想?
问题二:你觉得人生的意义是什么?
问题三:你觉得 AI 会超过人类吗?
案例二:女友扮演
另一大热门需求是和 AI 谈恋爱,但很多时候回答显得过于死板,平台自带角色又无法完全满足个性化的定制需求——如果能快速得到一份专属的女友 Prompt 就好了。这里用 Deepseek-V3 进行测试。初始 Prompt:
扮演我的女朋友。
优化后的 Prompt 如下(省略具体文本):
问题一:你爱我吗?
问题二:放假想去哪里玩呀?
问题三:我今天不开心
案例三:小红书文案
除了娱乐用途,该项目在营销文案、宣传文案等商业场景同样好用,比如帮助撰写小红书风格的文案。我们选择在旅游话题上进行风格复刻,实际操作时几乎可以复刻任何类型的小红书笔记。为了展示整个过程有多快捷,这个案例从空模板开始填写。详细演示见“完整实验过程”。初始 Prompt:
根据主题写小红书文案。
优化后的 Prompt 如下(省略具体文本):
问题一:去成都旅游
优化前
优化后
问题二:去新加坡旅游
优化前
优化后
注意:所有格式均为原始输出格式,标题级别、加粗、小标题等均自动生成。SPO 优化后的图片为原始输出附带的拍摄照片描述和留空图片位置,我们从互联网找到相似图片进行替代。
完整实验过程
为了回应文章开头的承诺,这部分放上从零开始优化出 Prompt 的一镜到底视频,展示完整流程,也作为使用参考。
案例一:深度思考
案例二:女友扮演
案例三:小红书文案
使用
SPO 启动!掌握这个项目,基本可以登顶当前版本的 T0 Prompt 工程师。项目完全开源,可直接阅读论文和代码:
代码:https://github.com/geekan/MetaGPT/tree/main/examples/spo
论文:https://arxiv.org/pdf/2502.06855
