诺基亚贝尔实验室与巴黎理工合作破解AI格式限制

时间：2026-06-04 12:36

诺基亚贝尔实验室与巴黎理工学院提出In-Writing框架，让大语言模型先自由推理再启动格式约束，解决输出结构化与思维受限的矛盾。实验表明，该方法在多项任务上准确率最高提升27%，并实现100%格式合规。

这项由诺基亚贝尔实验室（Nokia Bell Labs）与法国巴黎理工学院旗下的巴黎电信学院（Télécom Paris, Institut Polytechnique de Paris）共同主导的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2601.07525v2。对技术实现细节感兴趣的朋友，可通过该论文编号检索获取完整技术文档。

你是否注意到，大语言模型其实也面临着完全相似的困境？

试想一下，当你借助AI工具处理工作任务时，多数场景并非简单的闲谈，而是需要模型输出高度结构化的内容。例如，医院系统需要生成标准化的诊断编码，财务软件要求输出固定格式的数据报表，开发工具则强制代码符合特定的语法规范。这些场景的共同特点在于：输出的内容必须严格“合规”，不容许出现任何偏差，否则下游系统根本无法正常解析和处理。

然而，这一挑战远比表象复杂得多。这场拉锯战的核心本质在于——AI被要求同时达成两项任务：既要进行深度思考并推理出准确答案，又必须将结果精确地装入预设的格式容器中。格式容器的约束越严格，模型所能发挥的思维空间就越受限。

研究团队提出的解决方案是一个名为“In-Writing”的创新框架。其内核类似于“先构思草稿，再规范誊写”的工作流程——让AI在推理阶段完全自由发挥，不受任何格式限制，直至它彻底厘清问题；而在准备输出最终答案时，系统才启动格式约束机制。实验结果表明，这一看似简洁的设计思路，在多项任务上的准确率表现最高可比传统方法提升27%。

一、为何AI回答问题需要“格式”约束？

在深入理解这项研究之前，有必要先厘清一个背景问题：为什么AI的输出需要在意格式？

用一个直观的比喻来说，这好比餐厅后厨系统与前台点单系统之间的信息对接。顾客或许会用各种口语化方式表达“我要一份宫保鸡丁，少辣”，但后厨接收到的指令必须是标准化的代码格式，例如“item_code: 0031, spice_level: 1”。如果AI输出的答案像顾客点单一样随意，后端系统将完全不知如何解析处理。

正因如此，研究人员长期致力于推动AI输出更规范、更易解析的内容。目前主流方法大致可以分为三条技术路线，而每条路线都存在明显的局限性，这也构成了本研究启动的根本动机。

二、三条传统路线的固有缺陷

第一条路：自然生成（Natural Generation）

如其名称所示，该方法让AI像日常对话一样自由回答，不施加任何格式限制。这种方式的优点在于AI的推理过程能够完全释放，思维空间充裕，推理质量通常较为理想。但缺点同样显著：AI有时会将答案隐藏在一大段文字之中，需要额外设计解析程序去“提取”，且提取结果的准确性难以保证。更重要的是，输出格式无法得到保证，对于需要结构化输出的工业级场景，几乎没有实际应用价值。

第二条路：硬约束解码（Constrained Decoding）

这是研究界为应对格式问题而开发的技术。其工作原理类似于为AI配备一副特殊的“滤镜”——在模型每生成一个词语之前，系统会检查该词是否符合预设的格式规范，若不符合则直接屏蔽，强制AI只能选择“合法”的词汇。从格式保障的角度看，这种方法非常可靠，输出的内容百分之百符合规范。但问题在于，这层“滤镜”同时也抑制了AI的推理能力。实验发现，这种方法会使AI在推理阶段就受到束缚，导致一些在常规情况下完全正确的推理路径被强行切断，最终结果反而有所劣化。这就像你在解答数学题时，老师规定你只能使用“加法”和“减法”，从而不得不舍弃更简洁的乘法解法，绕行一大圈才得到答案，有时甚至无从下手。

第三条路：两阶段转换（NL-to-Format）

这条思路算是前两种方法的折中方案。具体做法是：先让一个AI用自然语言完成完整的推理并给出答案，然后再借助另一个（通常更大、成本更高的）AI将该自然语言答案转换为所需格式。这种方法在一定程度上兼顾了推理质量与格式规范，但代价是需要两次调用AI，成本成倍增加，并且转换过程本身也可能出现差错，尤其在需要输出复杂多字段格式时，转换质量极不稳定。

此外，还有一种称为CRANE的方法，试图在推理过程中反复切换“自由模式”与“约束模式”，通过特殊分隔符来区分哪些部分是自由推理，哪些部分需要受格式约束。尽管这一思路具备一定创新性，但执行复杂度很高，切换时机也难以精准把控，其实际效果已受到研究团队的质疑。

三、“先打草稿，再誊正”的In-Writing框架

面对上述三条路线各自的缺陷，研究团队提出了In-Writing框架。其核心理念可以用书法练习来类比：先在草稿纸上随意挥洒，将所有想法记录完整，待思路完全清晰之后，再拿出正式的格式纸，工整地誊写最终答案。

具体的技术实现方式如下：AI在回答问题时，首先进入“自由推理阶段”。该阶段完全没有任何格式约束，AI可以选用任何它认为合适的方式进行思考与表达。当AI自认为已彻底想清楚后，它会输出一个特定的“触发词”（trigger token）。这个触发词类似于草稿纸上写下“定稿如下”四个字，标志着推理阶段的结束与格式化输出阶段的启动。从触发词出现的那一刻起，系统才会启用格式约束机制，确保后续的最终答案完全符合预定规范。

研究团队在原论文中运用了一个十分贴切的类比：这种方法类似于图像处理领域的“修复绘画”技术（inpainting），即只对图像的特定区域进行处理，而不改动其他部分。In-Writing同样只对“最终答案输出”这一特定区域施加格式约束，让推理过程保持完整和自由。

从数学角度来理解（此处仅辅助思路理解，无需真正进行计算），传统约束解码会让格式要求渗透到整个推理过程，导致大量合理的推理路径被提前排除。而In-Writing通过将推理阶段与格式化阶段彻底分离，使得推理流程完全不受格式条件干扰，唯有最终答案输出才需满足格式要求。这种分离带来了双重好处：推理质量不会因格式约束而降低，同时最终输出又能保证百分之百的格式合规性。

四、触发词的选择颇有讲究——“早醒”的烦恼

研究团队在设计In-Writing时遇到了一个棘手问题，他们将其命名为“过早触发”（premature triggering）。

回到书法的比喻：如果你在草稿纸上写了一半，突然误以为已完成，便急忙切换到正式格式纸开始誊写，结果发现还有很多内容尚未厘清，此时再想返回补充草稿就变得十分棘手。In-Writing面临的是类似的问题——如果触发词选择不当，AI可能在尚未推理完毕时就误以为“该输出答案了”，从而过早启动格式约束，将后续的推理过程也强行套入格式中，反而损害了推理质量。

研究团队测试了两种触发词策略。第一种称为“In-Writing-Base”，使用了两个触发词：一个是“句子结束符”（``，即AI认为一段话已结束的信号），另一个是大括号“{”（JSON格式的起始符号，因为研究团队选择用JSON这种结构化格式来包装最终答案）。问题在于，AI在推理过程中随时可能产生大括号这个符号，例如在描述一个集合或举例时，这就会意外触发格式约束，从而截断正在进行的推理。

第二种称为“In-Writing*”，仅使用一个触发词，即“句子结束符”``。这一选择的逻辑很简单：``只有在AI真正认为整段输出已经完成时才会出现，它不会在推理中途随意出现。因此，采用``作为唯一触发词，可以确保AI在完全自由地推理完毕并自然结束之后，才开始格式化输出。实验结果表明，这一简洁的调整几乎完全消除了过早触发的问题。尤其是在需要复杂数学推理的任务中，In-Writing-Base可能因过早触发而损失超过30%的准确率，而In-Writing*则能稳定保持最优性能。

五、实验设计：公平竞技场中的全面检验

为验证In-Writing的实际效果，研究团队搭建了一套非常全面的测试体系，并且特意设计了一个可能对自身不利的条件，以此证明方法的鲁棒性。

在模型选择上，团队测试了18个来自五个不同系列的开源语言模型，参数规模从15亿到140亿不等，涵盖了Qwen（通义千问系列）、Llama、Gemma、DeepSeek以及SmolLM等业界广泛应用的模型家族。所有测试均在NVIDIA A40显卡上本地运行，而非依赖商业API服务。

在测试任务上，团队选择了两大类共七个数据集。推理类任务包括：需要多步数学推理的小学数学题库（GSM8K）、将数字替换为变量以测试代数泛化能力的符号变体（GSM-Symbolic）、将单词最后一个字母拼接起来的字母连接任务（Last Letter Concatenation），以及预测物品在一系列交换操作后位置的打乱物品任务（Shuffled Objects）。分类类任务包括：49类医学诊断数据集（DDXPlus）、5类金融文本分类（MultiFin）、体育相关句子的真实性判断（Sports Understanding），以及对格式高度敏感的刻板印象多选题（NI-Task 280）。

特别值得关注的是，研究团队在实验设计上主动做出了一个“让步”：他们沿用之前其他研究团队的提示词模板，而这些模板完全没有为In-Writing的输出格式提供任何引导。换句话说，AI在推理完成后，完全依赖格式约束机制自动输出结构化答案，而非因为提示词中已告知“请用JSON格式输出答案”。这种设计使得测试条件对In-Writing相对不利，但结果依然表明，即便在这种不利条件下，In-Writing仍然表现出色。

六、数字背后的故事：实验结果的启示

实验结果揭示了几个非常有趣的现象，每一个都值得深入剖析。

第一个现象是“提取方式决定成败”。研究团队发现，在使用相同提示词的前提下，自然生成（NL）、两阶段转换（NL-to-Format）和In-Writing*这三种方法实际上生成了完全一致的推理过程，区别仅在于最后一步如何从推理结果中提取答案。也就是说，AI所思考的内容是相同的，但不同的“提取工具”带来了截然不同的准确率。In-Writing*的结构化约束提取方式，比用另一个大模型来解读的方式更为准确，最高可多提取出27%的正确答案。这一发现意义重大，因为它表明，在很多情况下，准确率的差异并非源于AI的推理能力，而是来自最后的答案提取环节。

第二个现象是“大模型解读也会犯错”。两阶段转换方法依赖一个更大的AI来解读第一个AI的输出，理论上应十分可靠。但实验中发现，解读模型有时会犯一些奇怪的错误。在DDXPlus医学诊断任务上，解读模型有时会在正确答案前添加一大段解释性文字，例如“符合给定有效诊断列表的最终答案是……”然后才给出诊断名称，导致后续程序无法正确匹配答案。更令人担忧的是，在字母连接任务中，解读模型有时会“修正”第一个AI的输出——例如，第一个AI在字母之间加入了不必要的连字符，解读模型会将这些连字符移除，有时这种“修正”反而将错误答案变成了正确答案。这意味着，两阶段方法有时并非在“提取”答案，而是在“修改”答案，这本质上是一种不透明的操作，使人难以信任最终结果的来源。

第三个现象是“格式约束并非万能”。研究团队通过详细分析发现，In-Writing虽然表现出色，但并非毫无瑕疵。在GSM8K数学题中，存在一些案例，AI在自由推理阶段得出的文字答案是“52500美元”，但最终的格式化输出却仅写了“52”。这表明，格式约束机制在将推理结果“翻译”成结构化输出时，有时会截断或误解原始推理内容，这是未来需要继续改进的方向。

在与CRANE方法的对比上，数值差异更为显著。以Llama 3.1-8B模型为例，CRANE在GSM-Symbolic任务上的准确率为33%，而In-Writing*达到了59%，差距高达26个百分点。CRANE框架导致远超正常水平的性能下降，说明其语法约束确实对推理过程造成了实质性的损害，而In-Writing*的下降幅度则维持在正常范围内。

七、解析能力与效率：两个不可忽视的维度

除了准确率之外，研究团队还从另外两个维度对比了各种方法的表现：格式合规率（parsability）和词汇消耗效率。

在格式合规率方面，In-Writing*在所有测试场景中均达到了100%的格式合规率。相比之下，自然生成方法的格式合规率因模型大小和任务类型而异，差异悬殊，有些情况下甚至不足40%。两阶段转换方法虽然提升了格式合规率，但仍然无法保证100%，而且解读阶段所使用的提示词和模型对结果影响极大，稳定性较差。

在词汇消耗效率方面，结果令人满意。In-Writing*比自然生成方法多消耗的词汇量非常有限，通常仅多出5到20个词（这些额外词汇主要为JSON格式所需的括号、引号等结构性符号）。相比之下，两阶段转换方法虽然在当前测试中只多消耗了2到5个词，但这仅是因测试中的解读任务相对简单；当需要提取的是复杂的多字段结构化输出时，第二个AI需要消耗的词汇量会急剧增加，而且这第二次推理本身就构成了一笔不小的计算开销。

此外，研究团队在复核前人数据时，发现了一些实验设计上的问题。例如，在打乱物品任务的提示词模板中，有两个变体明明列出了七个选项（A到G），却在指令中错误地写道“请从以下四个选项中进行选择”。另外，少样本示例中有几个题目（例如“挪威男人很无聊”的答案竟然是“种族”）与目标任务毫无关联，这些问题都可能影响对比结果的可靠性。这些发现也提醒我们，在看待任何AI性能对比数据时，都需要关注实验设计本身的严谨性。

八、重叠分析：谁能弥补谁的不足？

研究团队还进行了一项非常有价值的“交叉分析”：在相同推理过程的基础上，In-Writing*和两阶段转换方法分别在哪些题目上成功，哪些题目上失败，两者的成功与失败是否存在重叠？

以字母连接任务为例，SmolLM3-3B模型的分析结果显示：有53.5%的题目两种方法都做对了，有34%的题目两种方法都做错了，有0.7%的题目仅有两阶段转换做对了而In-Writing*做错了，但高达11.8%的题目仅有In-Writing*做对了，而两阶段转换却失败了。这一分布表明，In-Writing*能够弥补两阶段转换的大部分失败案例，而两阶段转换能弥补的In-Writing*失败案例则很少。

这种不对称性的根源在于两种方法的根本差异：In-Writing*的格式约束机制除了提取答案之外，还能对答案进行隐性的“纠错”——如果AI在推理中输出了格式不合规的内容（例如在字母之间添加了多余的空格），格式约束会在输出最终答案时自动过滤掉这些错误，将正确内容以规范格式呈现出来。这是一种免费附赠的纠错功能。

局限性与坦诚：研究团队的自我审视

研究团队在论文中明确承认了In-Writing当前版本的主要不足：在整个研究过程中，他们没有对提示词进行任何专门针对In-Writing的优化。测试中使用的所有提示词均为自然生成或两阶段转换方法而设计，其中通常包含类似“请最后用'answer is:'前缀给出答案”这样的指引，这对In-Writing来说完全无用。更进一步，随着少样本示例数量的增加，AI会越来越倾向于严格遵守“answer is:”这一格式，反而在某些情况下降低了In-Writing和两阶段转换方法的提取准确率。这表明，如果专门为In-Writing设计优化的提示词，其表现很可能还会进一步提升。

此外，格式约束机制偶尔会在将推理结果转化为结构化输出时产生错误，例如截断数字或混淆符号，这是技术层面仍需改进之处。

归根结底，In-Writing提供了一个在推理质量与格式规范之间实现双赢的明确思路：不是让AI在思考时就戴上格式的枷锁，而是让它先自由思考，然后通过一个精准的“最后一公里”格式约束将答案装入合适的容器中。这一思路的成本极低（仅多消耗5到20个词汇），而带来的收益却相当可观——无论是准确率、格式合规率还是系统复杂度的降低，都有显著改善。

对于那些需要在工作中使用AI工具处理结构化输出任务的人来说，这项研究意味着一种更可靠、更高效的AI部署思路即将成为现实。无需再纠结于“要准确率还是要格式”，未来的AI系统完全可以在单次调用中同时做好这两件事。有兴趣进一步了解技术细节的朋友，研究团队已在GitHub（Nokia-Bell-Labs/InWriting）开放了全部代码，同时原论文arXiv:2601.07525也提供了完整的理论推导和实验数据。

Q&A

Q1：In-Writing框架与普通AI回答方式的本质区别是什么？

A：普通方式要么让AI完全自由回答（格式无保障），要么从一开始就给AI施加格式约束（推理受限）。In-Writing的核心区别在于将这两个阶段分离：先让AI完全自主地将问题思考清楚，待AI自认为推理完毕、产生一个特定的“结束信号”之后，才启动格式约束机制，将最终答案按照规定格式呈现出来，两个阶段互不干扰。

Q2：过早触发问题是如何产生的，又是如何解决的？

A：过早触发是指AI在尚未推理完成时，就误触发了格式约束机制，导致后续推理被强行截断。这一问题的根源在于触发词选择不当——如果用大括号“{”作为触发词，AI在推理过程中随时可能使用该符号，从而意外启动格式约束。解决方案是仅将“句子结束符”作为唯一触发词，因为这个信号只有在AI真正认为整段输出已经完成时才会出现，几乎完全消除了过早触发的风险。

Q3：In-Writing多消耗的词汇量是否会显著增加使用成本？

A：不会。实验数据显示，In-Writing*相比普通自然生成方式，仅多消耗5到20个词汇，这些额外词汇主要来自JSON格式所需的括号和引号等结构性符号。相比之下，两阶段转换方法需要额外调用一个大模型来解析答案，整体计算开销远高于In-Writing，且第二次调用还需要将第一次的完整输出作为输入，输入词汇量本身便很大。因此，In-Writing的额外开销相当微小且固定。

来源：https://www.163.com/dy/article/KUHE8DFQ0511DTVV.html

诺基亚贝尔

上一篇弗莱堡大学AI立体思维破解图像匹配方向性难题 下一篇智能体互联网产业发展与治理工作组成立

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。