这项由诺基亚贝尔实验室(Nokia Bell Labs)与法国巴黎理工学院旗下的巴黎电信学院(Télécom Paris, Institut Polytechnique de Paris)共同主导的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2601.07525v2。对技术实现细节感兴趣的朋友,可通过该论文编号检索获取完整技术文档。
你是否注意到,大语言模型其实也面临着完全相似的困境?
试想一下,当你借助AI工具处理工作任务时,多数场景并非简单的闲谈,而是需要模型输出高度结构化的内容。例如,医院系统需要生成标准化的诊断编码,财务软件要求输出固定格式的数据报表,开发工具则强制代码符合特定的语法规范。这些场景的共同特点在于:输出的内容必须严格“合规”,不容许出现任何偏差,否则下游系统根本无法正常解析和处理。
然而,这一挑战远比表象复杂得多。这场拉锯战的核心本质在于——AI被要求同时达成两项任务:既要进行深度思考并推理出准确答案,又必须将结果精确地装入预设的格式容器中。格式容器的约束越严格,模型所能发挥的思维空间就越受限。
研究团队提出的解决方案是一个名为“In-Writing”的创新框架。其内核类似于“先构思草稿,再规范誊写”的工作流程——让AI在推理阶段完全自由发挥,不受任何格式限制,直至它彻底厘清问题;而在准备输出最终答案时,系统才启动格式约束机制。实验结果表明,这一看似简洁的设计思路,在多项任务上的准确率表现最高可比传统方法提升27%。
一、为何AI回答问题需要“格式”约束?
在深入理解这项研究之前,有必要先厘清一个背景问题:为什么AI的输出需要在意格式?
用一个直观的比喻来说,这好比餐厅后厨系统与前台点单系统之间的信息对接。顾客或许会用各种口语化方式表达“我要一份宫保鸡丁,少辣”,但后厨接收到的指令必须是标准化的代码格式,例如“item_code: 0031, spice_level: 1”。如果AI输出的答案像顾客点单一样随意,后端系统将完全不知如何解析处理。
正因如此,研究人员长期致力于推动AI输出更规范、更易解析的内容。目前主流方法大致可以分为三条技术路线,而每条路线都存在明显的局限性,这也构成了本研究启动的根本动机。
二、三条传统路线的固有缺陷
第一条路:自然生成(Natural Generation)
如其名称所示,该方法让AI像日常对话一样自由回答,不施加任何格式限制。这种方式的优点在于AI的推理过程能够完全释放,思维空间充裕,推理质量通常较为理想。但缺点同样显著:AI有时会将答案隐藏在一大段文字之中,需要额外设计解析程序去“提取”,且提取结果的准确性难以保证。更重要的是,输出格式无法得到保证,对于需要结构化输出的工业级场景,几乎没有实际应用价值。
第二条路:硬约束解码(Constrained Decoding)
这是研究界为应对格式问题而开发的技术。其工作原理类似于为AI配备一副特殊的“滤镜”——在模型每生成一个词语之前,系统会检查该词是否符合预设的格式规范,若不符合则直接屏蔽,强制AI只能选择“合法”的词汇。从格式保障的角度看,这种方法非常可靠,输出的内容百分之百符合规范。但问题在于,这层“滤镜”同时也抑制了AI的推理能力。实验发现,这种方法会使AI在推理阶段就受到束缚,导致一些在常规情况下完全正确的推理路径被强行切断,最终结果反而有所劣化。这就像你在解答数学题时,老师规定你只能使用“加法”和“减法”,从而不得不舍弃更简洁的乘法解法,绕行一大圈才得到答案,有时甚至无从下手。
第三条路:两阶段转换(NL-to-Format)
这条思路算是前两种方法的折中方案。具体做法是:先让一个AI用自然语言完成完整的推理并给出答案,然后再借助另一个(通常更大、成本更高的)AI将该自然语言答案转换为所需格式。这种方法在一定程度上兼顾了推理质量与格式规范,但代价是需要两次调用AI,成本成倍增加,并且转换过程本身也可能出现差错,尤其在需要输出复杂多字段格式时,转换质量极不稳定。
此外,还有一种称为CRANE的方法,试图在推理过程中反复切换“自由模式”与“约束模式”,通过特殊分隔符来区分哪些部分是自由推理,哪些部分需要受格式约束。尽管这一思路具备一定创新性,但执行复杂度很高,切换时机也难以精准把控,其实际效果已受到研究团队的质疑。
三、“先打草稿,再誊正”的In-Writing框架
面对上述三条路线各自的缺陷,研究团队提出了In-Writing框架。其核心理念可以用书法练习来类比:先在草稿纸上随意挥洒,将所有想法记录完整,待思路完全清晰之后,再拿出正式的格式纸,工整地誊写最终答案。
具体的技术实现方式如下:AI在回答问题时,首先进入“自由推理阶段”。该阶段完全没有任何格式约束,AI可以选用任何它认为合适的方式进行思考与表达。当AI自认为已彻底想清楚后,它会输出一个特定的“触发词”(trigger token)。这个触发词类似于草稿纸上写下“定稿如下”四个字,标志着推理阶段的结束与格式化输出阶段的启动。从触发词出现的那一刻起,系统才会启用格式约束机制,确保后续的最终答案完全符合预定规范。
研究团队在原论文中运用了一个十分贴切的类比:这种方法类似于图像处理领域的“修复绘画”技术(inpainting),即只对图像的特定区域进行处理,而不改动其他部分。In-Writing同样只对“最终答案输出”这一特定区域施加格式约束,让推理过程保持完整和自由。
从数学角度来理解(此处仅辅助思路理解,无需真正进行计算),传统约束解码会让格式要求渗透到整个推理过程,导致大量合理的推理路径被提前排除。而In-Writing通过将推理阶段与格式化阶段彻底分离,使得推理流程完全不受格式条件干扰,唯有最终答案输出才需满足格式要求。这种分离带来了双重好处:推理质量不会因格式约束而降低,同时最终输出又能保证百分之百的格式合规性。
四、触发词的选择颇有讲究——“早醒”的烦恼
研究团队在设计In-Writing时遇到了一个棘手问题,他们将其命名为“过早触发”(premature triggering)。
回到书法的比喻:如果你在草稿纸上写了一半,突然误以为已完成,便急忙切换到正式格式纸开始誊写,结果发现还有很多内容尚未厘清,此时再想返回补充草稿就变得十分棘手。In-Writing面临的是类似的问题——如果触发词选择不当,AI可能在尚未推理完毕时就误以为“该输出答案了”,从而过早启动格式约束,将后续的推理过程也强行套入格式中,反而损害了推理质量。
研究团队测试了两种触发词策略。第一种称为“In-Writing-Base”,使用了两个触发词:一个是“句子结束符”(`
第二种称为“In-Writing*”,仅使用一个触发词,即“句子结束符”`
五、实验设计:公平竞技场中的全面检验
为验证In-Writing的实际效果,研究团队搭建了一套非常全面的测试体系,并且特意设计了一个可能对自身不利的条件,以此证明方法的鲁棒性。
在模型选择上,团队测试了18个来自五个不同系列的开源语言模型,参数规模从15亿到140亿不等,涵盖了Qwen(通义千问系列)、Llama、Gemma、DeepSeek以及SmolLM等业界广泛应用的模型家族。所有测试均在NVIDIA A40显卡上本地运行,而非依赖商业API服务。
在测试任务上,团队选择了两大类共七个数据集。推理类任务包括:需要多步数学推理的小学数学题库(GSM8K)、将数字替换为变量以测试代数泛化能力的符号变体(GSM-Symbolic)、将单词最后一个字母拼接起来的字母连接任务(Last Letter Concatenation),以及预测物品在一系列交换操作后位置的打乱物品任务(Shuffled Objects)。分类类任务包括:49类医学诊断数据集(DDXPlus)、5类金融文本分类(MultiFin)、体育相关句子的真实性判断(Sports Understanding),以及对格式高度敏感的刻板印象多选题(NI-Task 280)。
特别值得关注的是,研究团队在实验设计上主动做出了一个“让步”:他们沿用之前其他研究团队的提示词模板,而这些模板完全没有为In-Writing的输出格式提供任何引导。换句话说,AI在推理完成后,完全依赖格式约束机制自动输出结构化答案,而非因为提示词中已告知“请用JSON格式输出答案”。这种设计使得测试条件对In-Writing相对不利,但结果依然表明,即便在这种不利条件下,In-Writing仍然表现出色。
六、数字背后的故事:实验结果的启示
实验结果揭示了几个非常有趣的现象,每一个都值得深入剖析。
第一个现象是“提取方式决定成败”。研究团队发现,在使用相同提示词的前提下,自然生成(NL)、两阶段转换(NL-to-Format)和In-Writing*这三种方法实际上生成了完全一致的推理过程,区别仅在于最后一步如何从推理结果中提取答案。也就是说,AI所思考的内容是相同的,但不同的“提取工具”带来了截然不同的准确率。In-Writing*的结构化约束提取方式,比用另一个大模型来解读的方式更为准确,最高可多提取出27%的正确答案。这一发现意义重大,因为它表明,在很多情况下,准确率的差异并非源于AI的推理能力,而是来自最后的答案提取环节。
第二个现象是“大模型解读也会犯错”。两阶段转换方法依赖一个更大的AI来解读第一个AI的输出,理论上应十分可靠。但实验中发现,解读模型有时会犯一些奇怪的错误。在DDXPlus医学诊断任务上,解读模型有时会在正确答案前添加一大段解释性文字,例如“符合给定有效诊断列表的最终答案是……”然后才给出诊断名称,导致后续程序无法正确匹配答案。更令人担忧的是,在字母连接任务中,解读模型有时会“修正”第一个AI的输出——例如,第一个AI在字母之间加入了不必要的连字符,解读模型会将这些连字符移除,有时这种“修正”反而将错误答案变成了正确答案。这意味着,两阶段方法有时并非在“提取”答案,而是在“修改”答案,这本质上是一种不透明的操作,使人难以信任最终结果的来源。
第三个现象是“格式约束并非万能”。研究团队通过详细分析发现,In-Writing虽然表现出色,但并非毫无瑕疵。在GSM8K数学题中,存在一些案例,AI在自由推理阶段得出的文字答案是“52500美元”,但最终的格式化输出却仅写了“52”。这表明,格式约束机制在将推理结果“翻译”成结构化输出时,有时会截断或误解原始推理内容,这是未来需要继续改进的方向。
在与CRANE方法的对比上,数值差异更为显著。以Llama 3.1-8B模型为例,CRANE在GSM-Symbolic任务上的准确率为33%,而In-Writing*达到了59%,差距高达26个百分点。CRANE框架导致远超正常水平的性能下降,说明其语法约束确实对推理过程造成了实质性的损害,而In-Writing*的下降幅度则维持在正常范围内。
七、解析能力与效率:两个不可忽视的维度
除了准确率之外,研究团队还从另外两个维度对比了各种方法的表现:格式合规率(parsability)和词汇消耗效率。
在格式合规率方面,In-Writing*在所有测试场景中均达到了100%的格式合规率。相比之下,自然生成方法的格式合规率因模型大小和任务类型而异,差异悬殊,有些情况下甚至不足40%。两阶段转换方法虽然提升了格式合规率,但仍然无法保证100%,而且解读阶段所使用的提示词和模型对结果影响极大,稳定性较差。
在词汇消耗效率方面,结果令人满意。In-Writing*比自然生成方法多消耗的词汇量非常有限,通常仅多出5到20个词(这些额外词汇主要为JSON格式所需的括号、引号等结构性符号)。相比之下,两阶段转换方法虽然在当前测试中只多消耗了2到5个词,但这仅是因测试中的解读任务相对简单;当需要提取的是复杂的多字段结构化输出时,第二个AI需要消耗的词汇量会急剧增加,而且这第二次推理本身就构成了一笔不小的计算开销。
此外,研究团队在复核前人数据时,发现了一些实验设计上的问题。例如,在打乱物品任务的提示词模板中,有两个变体明明列出了七个选项(A到G),却在指令中错误地写道“请从以下四个选项中进行选择”。另外,少样本示例中有几个题目(例如“挪威男人很无聊”的答案竟然是“种族”)与目标任务毫无关联,这些问题都可能影响对比结果的可靠性。这些发现也提醒我们,在看待任何AI性能对比数据时,都需要关注实验设计本身的严谨性。
八、重叠分析:谁能弥补谁的不足?
研究团队还进行了一项非常有价值的“交叉分析”:在相同推理过程的基础上,In-Writing*和两阶段转换方法分别在哪些题目上成功,哪些题目上失败,两者的成功与失败是否存在重叠?
以字母连接任务为例,SmolLM3-3B模型的分析结果显示:有53.5%的题目两种方法都做对了,有34%的题目两种方法都做错了,有0.7%的题目仅有两阶段转换做对了而In-Writing*做错了,但高达11.8%的题目仅有In-Writing*做对了,而两阶段转换却失败了。这一分布表明,In-Writing*能够弥补两阶段转换的大部分失败案例,而两阶段转换能弥补的In-Writing*失败案例则很少。
这种不对称性的根源在于两种方法的根本差异:In-Writing*的格式约束机制除了提取答案之外,还能对答案进行隐性的“纠错”——如果AI在推理中输出了格式不合规的内容(例如在字母之间添加了多余的空格),格式约束会在输出最终答案时自动过滤掉这些错误,将正确内容以规范格式呈现出来。这是一种免费附赠的纠错功能。
局限性与坦诚:研究团队的自我审视
研究团队在论文中明确承认了In-Writing当前版本的主要不足:在整个研究过程中,他们没有对提示词进行任何专门针对In-Writing的优化。测试中使用的所有提示词均为自然生成或两阶段转换方法而设计,其中通常包含类似“请最后用'answer is:'前缀给出答案”这样的指引,这对In-Writing来说完全无用。更进一步,随着少样本示例数量的增加,AI会越来越倾向于严格遵守“answer is:”这一格式,反而在某些情况下降低了In-Writing和两阶段转换方法的提取准确率。这表明,如果专门为In-Writing设计优化的提示词,其表现很可能还会进一步提升。
此外,格式约束机制偶尔会在将推理结果转化为结构化输出时产生错误,例如截断数字或混淆符号,这是技术层面仍需改进之处。
归根结底,In-Writing提供了一个在推理质量与格式规范之间实现双赢的明确思路:不是让AI在思考时就戴上格式的枷锁,而是让它先自由思考,然后通过一个精准的“最后一公里”格式约束将答案装入合适的容器中。这一思路的成本极低(仅多消耗5到20个词汇),而带来的收益却相当可观——无论是准确率、格式合规率还是系统复杂度的降低,都有显著改善。
对于那些需要在工作中使用AI工具处理结构化输出任务的人来说,这项研究意味着一种更可靠、更高效的AI部署思路即将成为现实。无需再纠结于“要准确率还是要格式”,未来的AI系统完全可以在单次调用中同时做好这两件事。有兴趣进一步了解技术细节的朋友,研究团队已在GitHub(Nokia-Bell-Labs/InWriting)开放了全部代码,同时原论文arXiv:2601.07525也提供了完整的理论推导和实验数据。
Q&A
Q1:In-Writing框架与普通AI回答方式的本质区别是什么?
A:普通方式要么让AI完全自由回答(格式无保障),要么从一开始就给AI施加格式约束(推理受限)。In-Writing的核心区别在于将这两个阶段分离:先让AI完全自主地将问题思考清楚,待AI自认为推理完毕、产生一个特定的“结束信号”之后,才启动格式约束机制,将最终答案按照规定格式呈现出来,两个阶段互不干扰。
Q2:过早触发问题是如何产生的,又是如何解决的?
A:过早触发是指AI在尚未推理完成时,就误触发了格式约束机制,导致后续推理被强行截断。这一问题的根源在于触发词选择不当——如果用大括号“{”作为触发词,AI在推理过程中随时可能使用该符号,从而意外启动格式约束。解决方案是仅将“句子结束符”作为唯一触发词,因为这个信号只有在AI真正认为整段输出已经完成时才会出现,几乎完全消除了过早触发的风险。
Q3:In-Writing多消耗的词汇量是否会显著增加使用成本?
A:不会。实验数据显示,In-Writing*相比普通自然生成方式,仅多消耗5到20个词汇,这些额外词汇主要来自JSON格式所需的括号和引号等结构性符号。相比之下,两阶段转换方法需要额外调用一个大模型来解析答案,整体计算开销远高于In-Writing,且第二次调用还需要将第一次的完整输出作为输入,输入词汇量本身便很大。因此,In-Writing的额外开销相当微小且固定。
