游乐游手机版
首页/AI教程/文章详情

数据合成有无未来?事实结论揭示真相

时间:2026-06-24 11:42
对两个公开编程数据集抽样审查发现,纯AI合成数据合格率仅约一成,存在假难题、测试失真等严重问题。即便加入专家复核,不合格率仍达九成。高质量数据生产需顶尖专家与严格管理流程结合,而非依赖自动合成或简单人工把关。

最近,有读者向笔者提出了这样一个问题:既然大模型已经能够直接合成数据来快速生产,那么人工数据标注还有必要吗?

当前,数据生产确实普遍采用这种方式,模型蒸馏几乎成了行业内公开的惯例。让强大模型出题,弱模型跟随学习,几行配置、几百张显卡运行几天,就能产出过去近百人团队大半年的工作量。甚至有人认为,这就像是“永动机”一样,可以左脚踩右脚实现自我迭代。

然而,这个结论恐怕站不住脚。事实上,人工标注不仅依然必要,而且要求反而更高了。过去每天花几百元请几位标注员的时代已经一去不复返。在国内专业领域,数据样本的单条成本可能高达数千元,国外价格更是离谱。

“外包”并不简单

不少人无法理解扎克伯格为何重金布局Scale AI这样一家数据标注公司,根本原因在于不了解标注的真实价值。

Blockbuster Meta-Scale AI DealBlockbuster Meta-Scale AI Deal

这绝非简单的“人力外包”。Meta看重的正是Scale AI那套固化在工程流水线中的科学管理机制,以及他们的专家招募与任务评估体系。在后训练时代,标注的核心已经从“识别图像”进化为“对齐复杂推理逻辑”。

Scale AI能够将医疗、法律、代码等高门槛领域的隐性知识,通过精密的标准作业流程(SOP)进行结构化拆解和专家筛选,把人类零散的智慧“提纯”为AI的核心资产。在算力趋同的当下,谁掌握了这套将“人脑认知”转化为“机器认知”的工业基础设施,谁就掌握了AGI竞争的终极变量。

这并非个例,而是硅谷的共识。据外媒爆料,数据标注独角兽Surge AI的估值正逼近250亿美元。更关键的是,它在融资前营收就已超过10亿。

\

该公司CEO Edwin Chen(前谷歌科学家)多次指出纯机器合成数据的问题。他认为,大模型训练正深陷“榜单作弊”的怪圈:大家用脱离现实的合成题库进行训练和评测,培养出了一批“高分低能”的做题家——模型写文章排版精美、语气讨好,可一触及真实业务逻辑就露馅。Edwin的原话很扎心:“一千万条AI批量生成的平庸对话,价值比不上一千条顶尖专家死磕出来的Corner Case。”

至于大家最爱鼓吹的“生成成本趋近于零”,他认为这本质上是在为未来埋雷。那些带有微小瑕疵的“毒数据”一旦混入底层,前端省下的那点标注费,后端往往要付出成百上千倍的算力和人力来排毒。

新洞察的客观证据

最近,曾服务过多家大模型厂商、国内头部AI数据标注领域的公司“智能知识”的研究团队对数据合成做了深入研究,用事实数据验证了上述结论。

他们对两个公开的编程训练数据集进行了抽样审查,随机抽取标注为hard的题目,由经验丰富的专家逐题拆解。

审查分三步走:先查看参考答案能否通过自身测试(Oracle验证),再做静态代码审查,最后用大模型动态解题、分析逻辑轨迹。

分别是:

SETA(Camel-AI发布):号称全自动生成与验证的SOTA级合成数据集。

\

2. Terminal-Bench Pro:阿里开源的号称400个经专家手工审计的复杂任务。

\

但实际测试结果相当打脸:两个数据集合格率都非常低,近九成题目存在严重质量问题。问题分布如下:

问题类型

SETA(纯AI)

Terminal Bench Pro(AI + 人工)

说明

"标准答案"自己就是错的

~20%

~10%

参考答案无法通过自己的测试

没有训练价值

~35%

~45%

题面就是答案,或假难题,照抄即可

题目与测试不匹配

~35%

~35%

做对了判错,做错了判对

勉强可用

~10%

~10%

没大问题,但训练价值有限

两个数据集的“不合格大头”高度一致:假难题和测试失真合计占了七八成。

人工参与虽然稍微降低了答案出错的概率,但在测试设计和难度校准方面,几乎没有改善。

结论很残酷:纯靠AI合成不行,找不对人来把关也不行。

我们详细看看他们的发现。

纯靠AI不靠谱

模型面对的不是难题,而是废题。模型面临太多陷阱,我们来看看都有哪些坑?

第一,环境跑不通。

许多题目在Docker环境下根本跑不起来,题目直接作废。例如在任务Harbor-Dataset/25中,题目要求修复一个日志处理脚本,但Dockerfile最后一行引用的文件sample.log并不存在,执行build docker命令时会直接报错构建失败。Agent也无法进入Docker沙箱去完成prompt中给定的任务。

\

每道题都需要一个Docker容器作为运行环境。AI生成了Dockerfile,其中会指定要把哪些文件复制到容器中。但问题是:Dockerfile引用的文件,AI忘了生成。他们对数据集全部Dockerfile进行了自动化扫描,发现不少题目存在这类问题。这是AI的典型短板:在单个文件内能保持逻辑自洽,但在多个文件之间容易出现“引用悬空”。

第二,测试不靠谱。

奖励信号是错的,模型学到的是“碰运气”。

测试了超出题目定义之外的内容。在任务Harbor-Dataset/82中,题目要求开发一个命令行工具,实现软件包依赖解析,支持两种升级策略。Prompt中描述了需要完成的任务,但并没有限制模型生成的python文件需要满足什么样的命名规范。然而在对应的测试中,却直接调用了/app/pkg_resolver.py脚本来执行测试。也就是说模型需要在完成任务的前提下,还得猜中文件命名为pkg_resolver.py。

\

应该测试的内容没有测试。Harbor-Dataset/836要求编写脚本整理媒体文件,包括按规则重命名、记录操作日志、实现dry-run预览模式等。但在测试中没有任何内容提及—dry-run的测试。也就是说哪怕模型完全忽略这个要求甚至胡乱实现,都可能拿到题目的满分。

过严或过松的标准,导致奖励信号几乎等于随机噪声。测试用例就是“阅卷老师”。如果阅卷标准本身有问题,那分数就毫无意义。在强化学习训练中,测试用例是奖励信号的唯一来源。比如题目Harbor-Dataset/82:开发一个命令行工具,题目只说了“开发一个命令行工具”,没有指定工具叫什么名字、参数怎么传、输出用什么格式。但测试里却硬编码了工具名、硬编码了参数名、硬编码了输出措辞。这会给训练发送错误的信号——“你的方案不对”,但其实方案没问题,只是名字不一样。

第三,题目没价值。

答案写在题面里,模型只是在练“照抄”。指令已经把解题步骤和答案写得清清楚楚,模型不需要任何思考和探索,照抄即可。

以Harbor-Dataset/849题目为例,它要求修复一个有bug的部署脚本,但脚本中清晰说明了所有bug出现的原因。

\

这类题目虽然都标注为hard,但模型几乎总能做对,奖励信号的方差极低,梯度几乎为零。它们占用了训练资源,却不会带来任何能力提升。

总结下来,AI能写出看起来完整的题目和测试代码,但在多文件协同、测试完备性、难度校准上,仍存在显著能力缺口。

纯合成数据无法超越生成它的模型的能力上限。

那加上人类干预呢?

当前,“AI生成 + 专家复核”是目前行业里公认的更优解,也很符合直觉。Terminal-Bench Pro就是这个思路的代表,由领域专家手工审计调整,也就是有人类专家把关,规格比SETA高了不止一个档次。

但研究团队抽样审查后的结果依然残酷:合格率仍然只有约一成。

剥开这90%的不合格数据,问题集中在两个层面:

一,专家需要管理,否则简单问题也会翻车

人不是万能的。缺乏有效的管理和流程约束,简单的常识性问题仍然会犯。团队发现在build-python-sokoban-solver中,题目要求实现一个推箱子游戏求解器,题目描述中定义了四个方向的坐标映射:上(U)、下(D)、左(L)、右(R)。但R(右)被写成了(1, 0),和D(下)完全一样。这是题目描述里“复制粘贴忘记改”的错误。雪上加霜的是,测试也只用了1张图验证,方向定义错了、求解器乱走,也大概率蒙混过关。

\

这道题测试也有问题:环境里准备了10张地图,但测试只用其中1张运行求解器验证结果,其余9张只检查地图格式是否合法,根本不跑求解。方向定义错了、求解器乱走,也大概率蒙混过关。

二,需要真正懂行的专家,才能发现深层问题

前面提到,一些专业领域的数据标注成本高得令人咋舌,这其实是在为专家认知买单。比如这道题(build-nginx-1-24-production-server),要求配置Nginx服务器,核心功能是API限流:每秒10个请求。

测试脚本怎么验证?只发了5个请求,状态码为200和503的都算通过,只要有3个以上请求返回就行。这意味着:一台完全没有限流的服务器,5个请求全返回200,也能拿满分。限流要求形同虚设。不懂Nginx限流机制的审查者,看到“测试发了请求、检查了状态码”,很容易觉得没问题。只有懂行的人才会意识到:这个测试从根本上就验证不了限流功能。

从上面两个例子可以看出,简单的专家复核并不能有效提升数据集质量,有效的组织和对口的安排也是关键一环。

研究团队两个反直觉的结论,戳破的不是“AI能不能自己造数据”这个问题,而是一个更深层的行业假设——“只要有人看过,质量就有保障”。

小结

研究团队用严谨的论据证明了一点:高质量的编程训练数据,既不能靠AI全自动生成,也不能靠“有人看过”就放心。必须是“懂行的专家 + 严格的质量管理流程”,缺一不可。

在前面文章里,我们提过未来最大的护城河是“高质量的人类专家数据”。现在为了贪便宜往数据里掺水,短期看解决了燃眉之急,实际上是饮鸩止渴。Benchmark看上去很美,一用就废;把混杂泥沙的合成数据当底座,等于把客户信任放在火山口上。每一次看似微小的模型幻觉,在真实业务中都可能酿成灾难。

这正是像“智能知识”这样的新型数据标注公司创立的逻辑:招募最顶尖的领域专家,通过一整套科学的流程,提纯人类智慧,为客户沉淀真正的商业护城河。

附录 · 数据来源与案例索引

本文引用案例,均来自智能知识研究团队对以下两个公开数据集的抽样审查。

数据集来源

SETA(Camel-AI):github.com/camel-ai/seta-env

Terminal-Bench Pro(阿里开源):github.com/alibaba/terminal-bench-pro

引用案例来源

Harbor-Dataset/25 · Dockerfile 文件缺失,容器直接报废 https://github.com/camel-ai/seta-env/tree/main/Harbor-Dataset/25

Harbor-Dataset/82 · 测试硬编码文件名,方案正确也判错 https://github.com/camel-ai/seta-env/tree/main/Harbor-Dataset/82

Harbor-Dataset/836 · --dry-run 功能完全未被测试覆盖 https://github.com/camel-ai/seta-env/tree/main/Harbor-Dataset/836

Harbor-Dataset/849 · bug 原因直接写在题面,照抄即满分 https://github.com/camel-ai/seta-env/tree/main/Harbor-Dataset/849

build-python-sokoban-solver · 方向坐标复制粘贴错误,测试只用1张图蒙混 https://github.com/alibaba/terminal-bench-pro/tree/main/build-python-sokoban-solver

build-nginx-1-24-production-server · 限流测试发5个请求,不限流也能满分 https://github.com/alibaba/terminal-bench-pro/tree/main/build-nginx-1-24-production-server

来源:https://cloud.tencent.com.cn/developer/article/2695872
上一篇阿里开源OpenSandbox 面向AI智能体的生产级沙盒 下一篇Google发布5种常用Agent Skill设计模式
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网