数据合成有无未来？事实结论揭示真相

首页/AI教程/文章详情

数据合成有无未来？事实结论揭示真相

时间：2026-06-24 11:42

对两个公开编程数据集抽样审查发现，纯AI合成数据合格率仅约一成，存在假难题、测试失真等严重问题。即便加入专家复核，不合格率仍达九成。高质量数据生产需顶尖专家与严格管理流程结合，而非依赖自动合成或简单人工把关。

最近，有读者向笔者提出了这样一个问题：既然大模型已经能够直接合成数据来快速生产，那么人工数据标注还有必要吗？

当前，数据生产确实普遍采用这种方式，模型蒸馏几乎成了行业内公开的惯例。让强大模型出题，弱模型跟随学习，几行配置、几百张显卡运行几天，就能产出过去近百人团队大半年的工作量。甚至有人认为，这就像是“永动机”一样，可以左脚踩右脚实现自我迭代。

然而，这个结论恐怕站不住脚。事实上，人工标注不仅依然必要，而且要求反而更高了。过去每天花几百元请几位标注员的时代已经一去不复返。在国内专业领域，数据样本的单条成本可能高达数千元，国外价格更是离谱。

“外包”并不简单

不少人无法理解扎克伯格为何重金布局Scale AI这样一家数据标注公司，根本原因在于不了解标注的真实价值。

Blockbuster Meta-Scale AI Deal

这绝非简单的“人力外包”。Meta看重的正是Scale AI那套固化在工程流水线中的科学管理机制，以及他们的专家招募与任务评估体系。在后训练时代，标注的核心已经从“识别图像”进化为“对齐复杂推理逻辑”。

Scale AI能够将医疗、法律、代码等高门槛领域的隐性知识，通过精密的标准作业流程（SOP）进行结构化拆解和专家筛选，把人类零散的智慧“提纯”为AI的核心资产。在算力趋同的当下，谁掌握了这套将“人脑认知”转化为“机器认知”的工业基础设施，谁就掌握了AGI竞争的终极变量。

这并非个例，而是硅谷的共识。据外媒爆料，数据标注独角兽Surge AI的估值正逼近250亿美元。更关键的是，它在融资前营收就已超过10亿。

该公司CEO Edwin Chen（前谷歌科学家）多次指出纯机器合成数据的问题。他认为，大模型训练正深陷“榜单作弊”的怪圈：大家用脱离现实的合成题库进行训练和评测，培养出了一批“高分低能”的做题家——模型写文章排版精美、语气讨好，可一触及真实业务逻辑就露馅。Edwin的原话很扎心：“一千万条AI批量生成的平庸对话，价值比不上一千条顶尖专家死磕出来的Corner Case。”

至于大家最爱鼓吹的“生成成本趋近于零”，他认为这本质上是在为未来埋雷。那些带有微小瑕疵的“毒数据”一旦混入底层，前端省下的那点标注费，后端往往要付出成百上千倍的算力和人力来排毒。

新洞察的客观证据

最近，曾服务过多家大模型厂商、国内头部AI数据标注领域的公司“智能知识”的研究团队对数据合成做了深入研究，用事实数据验证了上述结论。

他们对两个公开的编程训练数据集进行了抽样审查，随机抽取标注为hard的题目，由经验丰富的专家逐题拆解。

审查分三步走：先查看参考答案能否通过自身测试（Oracle验证），再做静态代码审查，最后用大模型动态解题、分析逻辑轨迹。

分别是：

SETA（Camel-AI发布）：号称全自动生成与验证的SOTA级合成数据集。

2. Terminal-Bench Pro：阿里开源的号称400个经专家手工审计的复杂任务。

但实际测试结果相当打脸：两个数据集合格率都非常低，近九成题目存在严重质量问题。问题分布如下：

问题类型	SETA（纯AI）	Terminal Bench Pro（AI + 人工）	说明
"标准答案"自己就是错的	~20%	~10%	参考答案无法通过自己的测试
没有训练价值	~35%	~45%	题面就是答案，或假难题，照抄即可
题目与测试不匹配	~35%	~35%	做对了判错，做错了判对
勉强可用	~10%	~10%	没大问题，但训练价值有限

两个数据集的“不合格大头”高度一致：假难题和测试失真合计占了七八成。

人工参与虽然稍微降低了答案出错的概率，但在测试设计和难度校准方面，几乎没有改善。

结论很残酷：纯靠AI合成不行，找不对人来把关也不行。

我们详细看看他们的发现。

纯靠AI不靠谱

模型面对的不是难题，而是废题。模型面临太多陷阱，我们来看看都有哪些坑？

第一，环境跑不通。

许多题目在Docker环境下根本跑不起来，题目直接作废。例如在任务Harbor-Dataset/25中，题目要求修复一个日志处理脚本，但Dockerfile最后一行引用的文件sample.log并不存在，执行build docker命令时会直接报错构建失败。Agent也无法进入Docker沙箱去完成prompt中给定的任务。

每道题都需要一个Docker容器作为运行环境。AI生成了Dockerfile，其中会指定要把哪些文件复制到容器中。但问题是：Dockerfile引用的文件，AI忘了生成。他们对数据集全部Dockerfile进行了自动化扫描，发现不少题目存在这类问题。这是AI的典型短板：在单个文件内能保持逻辑自洽，但在多个文件之间容易出现“引用悬空”。

第二，测试不靠谱。

奖励信号是错的，模型学到的是“碰运气”。

测试了超出题目定义之外的内容。在任务Harbor-Dataset/82中，题目要求开发一个命令行工具，实现软件包依赖解析，支持两种升级策略。Prompt中描述了需要完成的任务，但并没有限制模型生成的python文件需要满足什么样的命名规范。然而在对应的测试中，却直接调用了/app/pkg_resolver.py脚本来执行测试。也就是说模型需要在完成任务的前提下，还得猜中文件命名为pkg_resolver.py。

应该测试的内容没有测试。Harbor-Dataset/836要求编写脚本整理媒体文件，包括按规则重命名、记录操作日志、实现dry-run预览模式等。但在测试中没有任何内容提及—dry-run的测试。也就是说哪怕模型完全忽略这个要求甚至胡乱实现，都可能拿到题目的满分。

过严或过松的标准，导致奖励信号几乎等于随机噪声。测试用例就是“阅卷老师”。如果阅卷标准本身有问题，那分数就毫无意义。在强化学习训练中，测试用例是奖励信号的唯一来源。比如题目Harbor-Dataset/82：开发一个命令行工具，题目只说了“开发一个命令行工具”，没有指定工具叫什么名字、参数怎么传、输出用什么格式。但测试里却硬编码了工具名、硬编码了参数名、硬编码了输出措辞。这会给训练发送错误的信号——“你的方案不对”，但其实方案没问题，只是名字不一样。

第三，题目没价值。

答案写在题面里，模型只是在练“照抄”。指令已经把解题步骤和答案写得清清楚楚，模型不需要任何思考和探索，照抄即可。

以Harbor-Dataset/849题目为例，它要求修复一个有bug的部署脚本，但脚本中清晰说明了所有bug出现的原因。

这类题目虽然都标注为hard，但模型几乎总能做对，奖励信号的方差极低，梯度几乎为零。它们占用了训练资源，却不会带来任何能力提升。

总结下来，AI能写出看起来完整的题目和测试代码，但在多文件协同、测试完备性、难度校准上，仍存在显著能力缺口。

纯合成数据无法超越生成它的模型的能力上限。

那加上人类干预呢？

当前，“AI生成 + 专家复核”是目前行业里公认的更优解，也很符合直觉。Terminal-Bench Pro就是这个思路的代表，由领域专家手工审计调整，也就是有人类专家把关，规格比SETA高了不止一个档次。

但研究团队抽样审查后的结果依然残酷：合格率仍然只有约一成。

剥开这90%的不合格数据，问题集中在两个层面：

一，专家需要管理，否则简单问题也会翻车

人不是万能的。缺乏有效的管理和流程约束，简单的常识性问题仍然会犯。团队发现在build-python-sokoban-solver中，题目要求实现一个推箱子游戏求解器，题目描述中定义了四个方向的坐标映射：上(U)、下(D)、左(L)、右(R)。但R（右）被写成了(1, 0)，和D（下）完全一样。这是题目描述里“复制粘贴忘记改”的错误。雪上加霜的是，测试也只用了1张图验证，方向定义错了、求解器乱走，也大概率蒙混过关。

这道题测试也有问题：环境里准备了10张地图，但测试只用其中1张运行求解器验证结果，其余9张只检查地图格式是否合法，根本不跑求解。方向定义错了、求解器乱走，也大概率蒙混过关。

二，需要真正懂行的专家，才能发现深层问题

前面提到，一些专业领域的数据标注成本高得令人咋舌，这其实是在为专家认知买单。比如这道题（build-nginx-1-24-production-server），要求配置Nginx服务器，核心功能是API限流：每秒10个请求。

测试脚本怎么验证？只发了5个请求，状态码为200和503的都算通过，只要有3个以上请求返回就行。这意味着：一台完全没有限流的服务器，5个请求全返回200，也能拿满分。限流要求形同虚设。不懂Nginx限流机制的审查者，看到“测试发了请求、检查了状态码”，很容易觉得没问题。只有懂行的人才会意识到：这个测试从根本上就验证不了限流功能。

从上面两个例子可以看出，简单的专家复核并不能有效提升数据集质量，有效的组织和对口的安排也是关键一环。

研究团队两个反直觉的结论，戳破的不是“AI能不能自己造数据”这个问题，而是一个更深层的行业假设——“只要有人看过，质量就有保障”。

小结

研究团队用严谨的论据证明了一点：高质量的编程训练数据，既不能靠AI全自动生成，也不能靠“有人看过”就放心。必须是“懂行的专家 + 严格的质量管理流程”，缺一不可。

在前面文章里，我们提过未来最大的护城河是“高质量的人类专家数据”。现在为了贪便宜往数据里掺水，短期看解决了燃眉之急，实际上是饮鸩止渴。Benchmark看上去很美，一用就废；把混杂泥沙的合成数据当底座，等于把客户信任放在火山口上。每一次看似微小的模型幻觉，在真实业务中都可能酿成灾难。

这正是像“智能知识”这样的新型数据标注公司创立的逻辑：招募最顶尖的领域专家，通过一整套科学的流程，提纯人类智慧，为客户沉淀真正的商业护城河。

附录 · 数据来源与案例索引

本文引用案例，均来自智能知识研究团队对以下两个公开数据集的抽样审查。

数据集来源

SETA（Camel-AI）：github.com/camel-ai/seta-env

Terminal-Bench Pro（阿里开源）：github.com/alibaba/terminal-bench-pro

引用案例来源

Harbor-Dataset/25 · Dockerfile 文件缺失，容器直接报废 https://github.com/camel-ai/seta-env/tree/main/Harbor-Dataset/25

Harbor-Dataset/82 · 测试硬编码文件名，方案正确也判错 https://github.com/camel-ai/seta-env/tree/main/Harbor-Dataset/82

Harbor-Dataset/836 · --dry-run 功能完全未被测试覆盖 https://github.com/camel-ai/seta-env/tree/main/Harbor-Dataset/836

Harbor-Dataset/849 · bug 原因直接写在题面，照抄即满分 https://github.com/camel-ai/seta-env/tree/main/Harbor-Dataset/849

build-python-sokoban-solver · 方向坐标复制粘贴错误，测试只用1张图蒙混 https://github.com/alibaba/terminal-bench-pro/tree/main/build-python-sokoban-solver

build-nginx-1-24-production-server · 限流测试发5个请求，不限流也能满分 https://github.com/alibaba/terminal-bench-pro/tree/main/build-nginx-1-24-production-server

来源：https://cloud.tencent.com.cn/developer/article/2695872

其他

上一篇阿里开源OpenSandbox 面向AI智能体的生产级沙盒 下一篇Google发布5种常用Agent Skill设计模式

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。