中科院深圳先进院揭示智能体网站生成存在安全盲区

时间：2026-05-08 06:26

研究揭示AI面对非专业用户模糊需求时存在“盲执行”问题，通过构建InteractWeb-Bench评测框架测试发现，主流模型在真实模糊需求下任务完成率最高不足40%。AI更擅长处理冗余信息，却难以识别信息缺口并主动澄清，常通过过度生成代码掩盖理解不足。该框架为评估和改进AI交互能力提供了系统方法。

2026年4月30日，一项由中国科学院深圳先进技术研究院、中国科学院大学、大连理工大学及澳大利亚新南威尔士大学联合完成的研究，以预印本形式发布于arXiv平台（论文编号：arXiv:2604.27419v1），该研究聚焦于计算机人工智能领域，特别是AI网站自动生成中的关键瓶颈问题。

一、从“一句话建站”的理想，到“盲执行”的现实困境

你是否曾想象，只需对AI说“帮我设计一个复古风格的二手书交易平台，色调要温暖怀旧”，它就能立刻生成一个完整的网站？随着多模态大语言模型和智能编程助手的迅猛发展，这种用自然语言驱动网站开发的愿景似乎触手可及。

然而，现实远比演示视频复杂。研究团队发现了一个普遍但被忽视的痛点：当缺乏技术背景的普通用户，使用模糊、矛盾或信息不全的自然语言描述需求时，AI系统极易陷入“盲执行”的陷阱。它不进行追问和确认，便直接开始编码，最终产出的网站看似功能完整，却与用户的真实意图南辕北辙。

“盲执行”这一术语，精准刻画了当前AI网站生成工具的症结：AI如同接到模糊订单的厨师，不问清客人口味与忌口，便按自己的理解烹制菜肴，成品可能色香俱全，却完全不合顾客心意。本研究旨在系统量化这一问题的严重程度，并为此构建一个全新的、可靠的评测基准。

二、现有评测体系的局限：为何需要全新的交互式框架？

在介绍新研究之前，有必要审视现有评测基准的不足。此前，业界已有如Design2Code（根据截图还原代码）和WebGen-Bench（根据完整说明建站）等测试平台。

但这些平台基于一个“理想化”前提：用户需求总是完整、清晰且逻辑自洽的。这好比只考核厨师按标准食谱做菜，却从不测试他如何处理“既要清淡又要浓郁”的矛盾指令。

真实用户的需求描述远非如此完美。他们可能极度简略（如“做个电商站”），可能冗长杂乱（夹杂大量无关信息），也可能前后矛盾（既要求“极简”又要求“功能丰富”）。面对这些不完美的真实输入，现有评测体系几乎无能为力。

为填补这一空白，研究团队创建了“InteractWeb-Bench”——这是首个专门针对“非专业用户模糊需求”场景的交互式网站生成评测框架，旨在系统评估AI在此类真实挑战下的表现。

三、四类模拟用户：系统化还原真实世界的需求混乱

InteractWeb-Bench的核心创新在于引入了四类模拟用户角色，每一类都基于真实的用户行为模式，并融合了软件工程中的“需求缺陷分类”与语言学的“会话准则”理论。

第一类：“极简派”用户。 代表“需求不完整”场景。他们言简意赅，只提核心目标，省略所有细节（例如：“开发一个购物网站”）。这直接测试AI能否主动识别信息缺口并发起澄清。

第二类：“话痨派”用户。 代表“低信噪比”场景。他们的描述冗长，关键信息被大量无关内容淹没（例如：先谈论天气和公司活动，再提及要做一个带地图功能的垃圾分类网站）。这考验AI的信息提取与过滤能力。

第三类：“直觉派”用户。 代表“需求模糊非技术化”场景。他们使用感官和情绪化语言，而非技术术语（例如：“希望网站有夏日沙滩的柔和质感”）。AI需将这种诗意描述“翻译”为具体的技术实现方案。

第四类：“矛盾派”用户。 代表“需求自相矛盾”场景。他们在同一段描述中提出逻辑上互斥的要求（例如：“做一个纯文字无视觉元素的网站，但同时要有丰富的卡通插图”）。这要求AI具备矛盾识别能力，并引导用户澄清真实意图。

这四类角色通过系统化的“指令变异”流程生成。研究团队从一批规范、完整的“黄金指令”出发，应用不同的算子（如删除细节、注入噪声、替换词汇、引入矛盾），从而产生具有可控难度梯度的测试用例，既贴近现实又具备可量化性。

四、超越单次问答：AI在框架中的多元化行动空间

为使评测更贴近真实开发流程，研究团队为AI设计了包含四种核心行动的交互空间：

1. 澄清： AI可主动提问，以获取缺失或矛盾的信息。
2. 实现： AI执行编码、安装依赖、运行命令等开发操作。
3. 验证： AI通过截屏检查运行中的网站，核对实现与需求是否一致。
4. 提交： AI认定任务完成，最终交付。

关键在于，AI可以任何顺序、任意次数地组合这些行动。它必须自主判断当前是该提问、该编码，还是该测试。这种灵活的非线性流程，模拟了真实的、迭代的软件开发过程。

“验证”行动尤为关键。触发后，AI会收到网站截图、完整对话历史、当前代码状态及过往验证记录。AI需制定测试用例，模拟用户操作（点击、输入、滚动）来验证功能。若发现问题，系统会提供包含错误截图、控制台日志及分析报告的详细反馈，助力AI精准调试。

为防止无限循环，系统设定了双重限制：基于任务难度的总步数上限，以及连续验证失败次数上限。

五、科学评分：基于“约束槽位”的任务完成度度量

如何客观评价AI生成的网站？研究团队设计了一套“约束槽位”评分机制。每个任务被分解为多个具体、可验证的“槽位”。

每个槽位包含三个要素：目标组件、预期结果、验证类型。一个任务通常包含7至12个槽位。最终得分（任务完成率）为通过验证的槽位权重之和与总权重之和的比值。

槽位权重根据实现难度动态分配：基础CSS样式权重较低，JavaScript交互居中，涉及异步请求、复杂状态管理的高级功能权重最高。同一组件下的多个槽位权重会适当缩减，以避免数量优势扭曲评分。

除任务完成率外，还引入了“幻觉率”指标，专门计量AI自行添加用户未要求功能（如擅自加入登录系统）的情况，这类“过度创作”在实际应用中会增加维护成本与用户困惑。

最终的“阅卷官”是一个基于WebVoyager技术构建的视觉评测智能体，它能像真人一样操作浏览器，独立、客观地核对每个槽位是否达标。

六、数据集构建：101个种子任务与404个测试案例

测试数据集源于高质量的WebGen-Bench基准。研究团队从中精选了101个网站设计任务作为“种子”，每个种子包含7到12个约束槽位。

通过对种子任务的约束复杂度进行量化评分，并使用K-均值聚类算法，将其划分为三个难度等级：简单（21个）、中等（54个）、困难（26个）。不同等级的任务在平均槽位数和权重分值上均有显著差异。

随后，对每个种子任务应用上述四类用户角色的变异算子，生成四个对应的变体。最终，101个种子任务 × 4种用户角色 = 404个动态测试案例，形成了一个覆盖全面、难度分层的完整评测套件。

七、实验结果：主流AI模型普遍陷入“盲执行”陷阱

研究团队使用该框架测试了九个主流多模态大语言模型，包括Qwen3.6-Plus、Kimi-K2.5、GPT-4.1等。

结果令人深思。表现最佳的Qwen3.6-Plus，其任务完成率也仅为38.78%。这意味着，即使是最先进的系统，在面对真实模糊需求时，也只能满足不到四成的用户要求。其他模型完成率在24%到37%之间。

任务难度与表现呈负相关趋势一致：所有模型在“简单”任务上的得分均显著高于“中等”和“困难”任务。

用户角色影响显著。几乎所有模型处理“话痨派”（信息冗余）的表现都优于处理“极简派”（信息缺失）。这表明，当前AI更擅长从废话中提取信息，而非识别信息不足并主动追问。

八、六大关键发现：深度剖析“盲执行”根源

通过深入分析模型行为轨迹，研究团队归纳出六个关键发现：

发现一：意图理解与主动澄清能力脱节。 所有模型的“意图对齐分数”（理解用户想要什么）尚可，但“澄清命中率”（问到关键缺失信息）均低于40%。这揭示了盲执行的核心：AI能感知大致方向，却无法精准定位理解缺口。

发现二：代码行数与“幻觉率”正相关。 表现较强的模型（如Qwen3.6-Plus、Kimi-K2.5）倾向于生成更多代码（超1400行），其“幻觉率”（添加未要求功能）也超过60%。而生成代码较少的GPT-4.1（约440行），幻觉率仅为31.7%。这表明“过度编码”策略无法提升任务完成度，反而会引入大量无关元素。

发现三：视觉验证利用率低。 模型虽能进行验证，但多用于修复局部小问题（如按钮颜色），而非重新审视整体需求理解是否根本性偏差。验证行动未能有效转化为对宏观意图的反思。

发现四：四类用户角色影响差异显著。 AI对“信息冗余”的抵抗力明显强于对“信息缺失”的应对能力。即使在最理想的“黄金指令”输入下，模型完成率也仅提升约10个百分点，远未达到实用水平。

发现五：模型策略在“谨慎探索”与“果断交付”间两极分化。 例如，GPT-4.1-mini倾向于反复确认但难下决断；Qwen3.6-Plus则偏向快速决策并交付。两种策略各有弊端：前者易陷入循环，后者易产出偏离主题的成品。

发现六：视觉呈现质量存在“天花板”。 各模型在基础视觉布局和创意对齐上得分接近，均能产出结构完整、无明显渲染错误的页面。但在“做得对”（符合需求）层面差距巨大，且普遍存在轻微视觉缺陷。幻觉率差异显著，最高达72.3%，最低为23.5%。

九、人工评审与AI评审：共识与差异

研究团队邀请三位计算机科学博士生对生成网站的美观度进行人工评分。对比显示，人工评审与AI评审之间存在中等程度的一致性，而人类评审员彼此间的一致性略高。

在两种评审方式下，Kimi-K2.5均在视觉美观度上得分最高，表明其在色彩搭配与视觉和谐度上有优势。Qwen3.6-Plus在内容丰富性上突出，GPT-4.1倾向于生成有纹理的背景，Gemma-4-31B-it则在整体布局结构性上表现更好。

这项研究的核心结论清晰表明：即使是最先进的AI网站生成系统，在面对真实世界不完美的需求表达时，仍广泛存在“盲执行”问题。它们善于处理冗余信息，却拙于识别信息缺口并主动追问；会用大量编码掩盖理解不足；虽能验证却难以借此反思全局。不同模型在“探索”与“交付”策略上差异显著，但均未找到最佳平衡点。

InteractWeb-Bench的价值在于，它提供了一个可复现、可量化的测试环境，使系统化测量与改进这些问题成为可能。该框架有望推动AI编程助手从“被动执行指令”向“主动协同与意图理解”演进。一个真正智能的AI建站工具，不仅需要会写代码，更需要懂得在关键时刻询问：“您能否再具体说明一下？”

AI网站生成常见问题解答（Q&A）

Q1：InteractWeb-Bench是什么？它与传统网站生成测试有何不同？

A：InteractWeb-Bench是一个针对非专业用户模糊需求的交互式网站生成评测框架。与传统测试（如WebGen-Bench）假设需求清晰完整不同，它通过模拟四类真实用户角色，制造模糊、矛盾、不完整的输入，并允许AI进行提问、编码、验证和提交等全流程交互，从而评估AI在真实、不完美场景下的综合应对能力。

Q2：“盲执行”问题在实际AI建站中会造成哪些具体影响？

A：“盲执行”会导致AI产出不符合用户真实需求的网站，即使表面运行正常。实验中，最强模型的任务完成率也不足40%，意味着超六成需求未被满足。同时，AI可能擅自添加未要求的功能（高“幻觉率”），增加后期修改和维护成本，导致用户需要反复沟通甚至推倒重来，反而降低开发效率。

Q3：为什么AI处理信息缺失比处理信息冗余更困难？

A：实验表明，AI在面对“话痨派”（信息冗余但完整）时表现优于面对“极简派”（信息缺失）。这是因为处理冗余信息本质上是信息提取与过滤，属于语言模型的传统强项。而处理信息缺失，需要AI具备“元认知”能力——即意识到“自己不知道什么”，并主动发起澄清。当前模型在此方面训练不足，更倾向于基于已有信息进行“脑补”而非“追问”。

来源：https://www.163.com/dy/article/KSBSLN920511DTVV.html

智能体

上一篇人工智能发展机遇如何把握与落地实践 下一篇全球首款混合动力飞机成功完成首次试飞

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。