先说一个核心判断:想把笔记内容精准转成适合开口讲的口播稿,仅仅写一句“请改成口播稿”远远不够,必须搭配细致提示词。
豆包默认的语感逻辑以书面方式组织句子,如果不给它设定几条硬性边界,生成出来的词句念起来都不顺,更谈不上像人类自然表达。
控制语速与单句长度
在提示词里直接限定时长和字数上限:每分钟输出严格控制在180到200字之间,而且单句不得超过12个汉字,超过一秒的句子必须断句并加逗号。
具体指令怎么写?“按2分30秒口播时长生成,总字数严格限定在450±5字,每句≤12字,句末必须为逗号或句号。”
别嫌这个写法死板——如果你不这样写,豆包就会甩出“虽然……但是……并且……以至于……”这类看一眼就知道读不了的长句。
禁用书面化表达与抽象术语
做第一遍提示词时,很多人漏掉一个关键动作:把书面词锁死。
方法一:列一个否定清单。在提示词尾段加入硬性排除条款——“禁用‘综上所述’‘值得注意的是’‘由此可见’等书面过渡词;禁用‘赋能’‘抓手’‘闭环’‘颗粒度’等职场黑话;禁用‘该’‘其’‘此’等人称代词指代,全部替换为‘你’‘我’‘咱们’或具体名词。”
方法二:放入一个真实的口播例句做锚点。例如:“示例句式:‘你有没有过这种时候?手机拿起来又放下,刷了半小时,结果啥也没记住。’——请严格复刻该句的设问+生活场景+短节奏断点结构。”
这样一操作,风格就定得很死,不会跑偏。
植入听觉友好型停顿与重音提示
口播和文字的最大区别是什么?人耳朵需要换气点。
第一步:在每个核心观点、数据、人名、动作动词前,插入一个0.8秒呼吸空隙标记。指令写成:“在每个核心观点、数据、人名、动作动词前,插入【停】标记。” 注意,输出的只是一个“停”字,不要把括号一起写出来。
第二步:强制重读音词用中文括号包起来。比如:“这个方案(真的)能省下(整整)两小时”。括号里的字要重读,豆包只有被明确指令才会做这种语音意图标注。
第三步:删除所有多余括号说明。提示词里要写清楚:“删除原文中所有‘(注:……)’‘(即……)’类补充说明,只保留主干陈述。”
绑定真实使用场景与身份语气
最后这招也是最关键的。
必须写明场景和主讲人身份,比如:“这是一场小红书博主在咖啡馆实拍场景下的轻知识分享,主讲人是具备3年教育类内容经验的95后老师,语气像朋友聊天一样自然,带一点恰到好处的惊讶和停顿。”
不写这个,豆包就会用新闻联播腔调来做输出,到时候你可就后悔了。
再加一句话兜底:“所有案例必须来自一线教学真实事件,如‘上周三我在杭州某小学试讲时,一个孩子突然举手说……’;禁用‘例如’‘假设’‘一般来说’等虚拟引导词。”

把以上四个边界卡死之后,生成的口播稿基本就能做到开口直接读。不用删改,不用调整,拿来就能用。
