大模型转行土木工程首个打灰人评估基准测试图纸能力

时间：2026-06-23 14:19

麦吉尔大学联合加州大学圣芭芭拉分校推出首个工程图纸修改评估基准DrafterBench，包含1920个任务，考察模型理解、工具调用、指令跟随和批判性推理能力。测试显示OpenAIo1以79 9分领先，但整体未达到工业执行精度要求。

在AI竞赛日益白热化的今天，大语言模型早已不再是只会闭门刷题、死记硬背的“学霸”了。

GPT-4o能够解答物理奥赛难题，DeepSeek也能熟练搭建网站……但这些被冠以“专家级”称号的大模型，真的能下到工程一线干活吗？在钢筋水泥构筑的图纸世界里，它们究竟是得力的助手，还是只会纸上谈兵？

答案尚未揭晓，但已经有人迈出了评测的第一步。

加拿大麦吉尔大学AIS实验室联合加州大学圣芭芭拉分校（UCSB），正式推出了面向工程自动化任务的大模型评估基准——DrafterBench。这是首个专为“一线工程图纸修改任务”设计的大规模评测套件，目标非常明确：检验现有LLM能否胜任土木工程中那些真实、繁重的“打工任务”。

论文链接：https://arxiv.org/abs/2507.11527
代码链接：https://github.com/Eason-Li-AIS/DrafterBench
数据链接：https://huggingface.co/datasets/Eason666/DrafterBench

为什么需要DrafterBench？

在土木工程和建筑设计领域，工程图纸修改是最耗时、最高频的苦差事，也是自动化呼声最强烈的环节。每天有成千上万的工程师和制图员，要反复处理“把这根梁挪动一下”、“把这根管道直径加粗几毫米”、“给这个构件补上标注”——工作琐碎，却责任重大。

这类任务工作量大、标准严苛、容错率低，技术门槛虽然不算很高，但对执行力要求极强——必须看懂指令、把控细节、并将多个步骤串联起来完成。于是，研究团队提出了一个问题：如果大模型能读懂图纸指令、调用工具链、精确修改图元，那它就不再只是“擅长写PPT的高手”，而是真正意义上的“工程打工人福音”。

DrafterBench怎么做的？

DrafterBench的核心任务是图纸修改。它在20个真实项目中收集并设计了1920个高质量任务，涵盖12类指令类型，模拟了各种难度和风格的真实工程命令。

它不要求模型“按部就班”，而是全面考察四大能力维度：

结构化数据理解能力——模型能否从不同风格的语句中精准提取关键细节；
工具调用能力——模型能否组合多个工具形成有效的操作链，并正确掌握调用顺序与参数；
指令跟随能力——面对一条包含多个修改目标的长指令，能否做到任务不遗漏、执行不中断；
批判性推理能力——模型能否识别指令中的信息缺失或不合理之处，主动补全模糊细节、修正错误。

这不是纸上谈兵的作文，而是工程实战的检验。

DrafterBench如何评估模型？

在DrafterBench中，模型必须通过“代码调用工具”的方式完成任务。这些工具涵盖图元编辑、标注调整、绘图逻辑等，彼此间存在输入输出依赖，环环相扣，构成了一条“工程任务链”。

问题随之而来：工具调用是否准确？组合是否合理？中间步骤能否成功传递？是否存在冗余或错误命令？

直接查看图纸输出根本无从判断。于是，DrafterBench设计了一套对偶工具系统：所有工具都配备了一个“替身”，它不实际修改图纸，但会记录调用顺序、参数值、变量状态，并以结构化JSON输出，清晰还原模型的每一步“行动路径”。

换句话说，它不只看模型是否答对了，更关注模型为何答错、在哪一步出错、错在哪里。

模型表现如何？结果喜忧参半。

研究团队评测了主流SOTA大模型：OpenAI GPT-4o / o1系列、Claude 3.5 Sonnet、Deepseek-V3-685B、Qwen2.5-72B-Instruct、LLaMA3-70B-Instruct。

综合来看，这些模型得分普遍超过65分，说明它们确实具备一定的工程任务处理能力，尤其在简单指令执行上表现稳定。其中OpenAI o1以79.9分领跑，Claude 3.5 Sonnet（73.79）和Deepseek-V3-685B（73.09）紧随其后。

但整体水平仍远未达到工业一线对执行精度和流程完整性的要求。更值得注意的是，不同模型在四大能力维度上差异显著。

例如，在结构化数据理解任务中，模型整体表现稳定，对语言风格的鲁棒性较强。但在工具调用方面，准确率波动明显，平均差距可达9个百分点。在指令跟随能力上，OpenAI o1和Claude 3.5 Sonnet抗噪声能力较好，能保持基本的任务完整性；而在批判性推理任务中，模型间能力分化尤为突出——OpenAI o1擅长识别信息缺失、筛选关键信息，Qwen2.5则更善于细节补充，其余模型波动较大。

研究团队还使用了自动化错误分析工具，对每个任务的失败原因进行了结构化溯源。结果发现：常见错误包括参数定义不清晰、变量传递失败、函数调用结构混乱、工具选择偏差以及多工具组合逻辑错乱。更关键的是，即便多个步骤都执行正确，只要某一关键环节出现问题，最终的图纸修改就会失败。这解释了为什么多数模型的单项能力准确率能维持在60%左右，但整体目标修改完成度却只有40%上下。