游乐游手机版
首页/AI教程/文章详情

结构化思维如何成为AI提效的隐藏飞轮

时间:2026-06-18 16:29
软件开发中大量模糊工作可被结构化,定义可测量指标后AI能自主执行“改-测-判”循环,其产出反过来优化结构化体系,形成飞轮效应。版本控制、自动化测试等工程基础设施是前提,同时需正视LLM不确定性和数据质量等约束。

最近在腾讯云技术社区看到了张思宇的一篇深度文章,主题是如何让一个 Skill 实现自主迭代、自我评测与自动回滚,经过 19 轮测试后零失误。技术细节极具参考价值,但真正让我受到启发的,是文章背后蕴藏的两层深层思考。

第一层,他把一件看似完全依赖直觉与经验的工作,拆解成了一整套可量化、可度量的流程。这让我联想到,软件工程中大量“说不清、道不明”的任务,其实都存在类似的优化空间。一旦完成了结构化——把输入、过程和输出都明确定义——AI 就能高效运转起来;而 AI 的迭代成果又会反过来反哺并持续优化这个结构化体系。这正是典型的正向飞轮效应。

第二层,他广泛借鉴了前人的成熟方法,结合自身实际场景,最终拼凑出一套更完善的解决方案。简单来说,就是通过“有机组合”现有方法论,创造出了新的实践体系。


那些“说不清”的工作

在软件工程中,有不少任务你明明知道它很重要,但就是很难说清楚“做到什么程度才算合格”。

Skill 调优就是一个典型例子。表面上看是写 prompt,实际上触发条件、安全规则、引用一致性等因素相互影响,改动了 A,很可能导致 B 出现问题。需求文档也一样——产品经理觉得自己写得清楚明白,开发同学读完后却可能理解出三个完全不同的意思。代码 Review 更是不用说,格式问题抓了一堆,但真正关键的逻辑漏洞却往往一个都没发现。

这些工作的共同点在于:高度依赖个人经验和手感,质量难以稳定复现。你无法写一个 CI 脚本来判断“这份需求文档已经达到了合格标准”。

但从另一个角度看,它们并非真的无法被结构化。只是我们在真正行动之前,自己就先觉得太麻烦,所以一直拖延着没去尝试。

现在 AI 的出现,让这个方向变得可行。但前提是——你自己必须先建立起一套结构化的评估方法,并且在推广之前,持续进行迭代和打磨。


张思宇做了什么

他没有继续在“多试几轮、多加点规则”的泥潭里打转,而是把“好不好”这个模糊的判断,拆解成了可度量的具体指标。

首先是标准答案(GT:Ground Truth)。每个测试用例都有明确的期望输出,通过就是通过,不通过就是不通过,绝不存在“差不多”这种模棱两可的说法。

然后是分层评测的机制。不是一口气把所有测试都跑完,而是先用秒级的程序检查做一轮快速筛选,再用分钟级的语义评测跟进,最后只有在必要时才会启动耗时十分钟的全量验证。每一层都像一个筛子,目的是尽早淘汰掉不合格的改动。

\

听起来是不是有点熟悉?没错,TDD、SLO、OKR 这些方法论,本质上都是类似的思路。

还有一个细节特别值得一说:他使用的是“AND”门控机制,而不是加权打分。每一轮改动,必须在五个维度上同时达标才行。不允许拿 A 维度的高分去弥补 B 维度的低分。如果质量提升了 10%,但 token 消耗翻了一倍?AND 门控不会放过你。

张思宇最厉害的地方,在于他把这套方法落地到了 Skill 调优这个几乎没人认真做过结构化的领域,并且实实在在地验证了它的可行性。


结构化之后,AI 才跑得动

一旦“好不好”变成了可度量的指标,有意思的事情就发生了:AI 可以自主跑循环了。

不再需要人每轮都去判断“这次改得行不行”。评测体系本身就是裁判,方案通过就留下,不通过就自动回滚。人的角色从“每轮都要参与判断”退到了“设计评测体系,偶尔调整方向”。

他的 skill-evolver 就是这样运行的。每一轮只改一个东西,然后跑评测,五个维度全部通过才 Commit,任何一个维度不满足就 Git Revert,就当这轮从未发生过。19 轮下来,测试用例从 17 个自动扩展到了 31 个,代码量削减了 60%,通过率达到了 100%。

其中有个例子特别典型。在第 7 轮,工具给自己加了一个 Git 状态检查——如果工作区状态不干净,就拒绝执行。当时所有测试都通过了,作者自己也测不出问题,因为他所有的 Skill 项目都在 Git 仓库下。但真实的用户,可能连 Git Init 都没做过。到了第 12 轮,工具自己发现了这个回归缺陷,并修改了初始化逻辑,在一个空目录上跑了端到端测试,最终通过了。

这个例子说明:结构化的评测体系,加上 AI 的循环迭代,能够触及人类天然够不到的边界。不是 AI 更聪明,而是它能不知疲倦地跑通更多的路径。


飞轮怎么转

到这里,整个飞轮的轮廓就很清晰了。

起点是“结构化”——你把一件模糊的工作拆解成可定义、可度量的指标。这是人最需要投入精力的环节,你必须想清楚什么叫“好”,然后把它编码成规则或数据。

结构化到位之后,AI 介入的效率会急剧提升。它不需要理解你的深层意图,只需要在一个明确的目标下,执行“改-测-判”的循环。目标越清晰,迭代就越有效。

\

而 AI 的每一轮迭代,都可能发现新的边界条件和失败模式。这些产出会沉淀回评测体系,让下一轮的判断更加精准。

这个逻辑,并不局限于 Skill 调优。


更多地方可以用

软件开发中,不少灰色地带都能走这条路。

需求工程。“需求文档写得清不清楚”是个模糊判断。但如果定义一套质量标准——比如每个功能点都必须有输入输出定义、异常分支覆盖、与现有功能的交互说明——那么 AI 就能对照这些标准,逐项检查、补全缺失项、甚至生成边界测试用例。

代码 Review。代码 Review 的质量,目前高度依赖 Reviewer 的个人经验。如果能定义“好 Review”的标准——比如每个函数变更都必须有原因说明、安全敏感路径的变更必须有安全评审标记、性能变更必须附带基准测试——那么 AI 就能完成第一轮筛选,只把那些真正需要人类判断的部分提交上来。

架构决策记录(ADR)。架构决策通常散落在会议纪要、聊天记录甚至个人的脑子里。如果规定每个决策记录都必须包含背景、备选方案、选择理由、预期风险、重新评估的触发条件,那么 AI 就能定期扫描,识别出过时的决策,或者发现自相矛盾的约束条件。

运维预案。“预案靠不靠谱”同样很难量化。但如果定义质量标准——比如每个告警都有对应的恢复脚本、脚本有演练记录、失败率超过阈值时自动升级——那么 AI 就能持续地迭代和维护预案库。

这些例子的模式高度一致:先定义“好”的标准,再让 AI 在这个标准下循环,最终的迭代产物反过来丰富和强化了标准本身。


但有个前提

结构化不是凭空发生的,它需要工程基础设施来支撑。所有的过程与结果,都应当被“写下来”并归档。

张思宇的实践能跑通,不光是因为他设计了一套评测体系。他还拥有版本控制——每一轮改动都有 Git Commit,回滚是原子操作。他有自动化测试——评测可以程序化执行,不需要人工介入。他有可追溯的执行记录——每次迭代的 Trace 都落盘,下一轮诊断时有据可查。他还有清晰的数据边界——训练集和 Holdout 集严格分离,防止过拟合。

换句话说,良好的软件工程实践——版本控制、自动化测试、日志追踪、数据管理——不仅仅是项目管理的需要,更是让 AI 发挥效率的、不可或缺的地基。


也要清醒

当然,这并非万能药。

首先,LLM 本身具有不确定性。同一份代码、同一组测试,跑四次的结果可能在 0.79 到 0.92 之间波动。你很难分清,这次的改进到底是你的方案变好了,还是仅仅因为模型今天“状态好”。因此,评测体系本身也需要具备一定的容错性。

其次,数据质量决定了天花板。如果标准答案本身都存在争议,那 AI 再怎么迭代也过不了那道坎。任何时候,都应该先审视数据,再去质疑工具。

成本也是真实的。自动化迭代意味着大量的 API 调用,省了人力,但花了算力。

最后,也是最关键的一点:第一轮必须有人。评测体系的设计、GT 数据的准备、门控规则的制定——这些前置工作的质量,直接决定了后续循环的效果。别指望把工作丢进去,自己就可以睡大觉。


回到核心

这篇文章其实不是在讲 Skill 怎么训练,对此感兴趣的读者可以直接去看张思宇的原文。

我真正想表达的是:软件开发中,大量看似只能靠经验来完成的工作,都有被结构化的可能。而一旦完成了结构化,AI 就能在这个清晰的框架内高效运转,其产出又会反过来强化和优化这个结构化体系。

这个飞轮的起点,不是 AI,而是工程方法本身。版本控制、自动化测试、清晰的接口定义、可追溯的执行记录——这些看似“传统”的软件工程基本功,恰恰是让 AI 发挥效率的前提条件。

与其问“AI 能帮我做什么”,不如问“我的工程基础设施,能让 AI 在上面跑多快”。

轨道修得好,火车自然快。


  • 软件开发中大量“说不清、靠手感”的工作都有结构化的空间,第一步是定义“什么算好”。
  • 结构化是 AI 高效运转的前提——目标可测量、结果可判定,AI 才能真正实现自主迭代。
  • 飞轮效应:结构化让 AI 提效,AI 的产出反过来丰富结构化,循环加速。
  • 版本控制、自动化测试、日志追踪、数据管理等工程基础设施,是飞轮运转的地基。
  • LLM 的不确定性、数据质量、成本、前置人工投入,都是必须正视的现实约束。
  • 与其问 AI 能做什么,不如问基础设施能让 AI 跑多快。
来源:https://cloud.tencent.com.cn/developer/article/2691883
上一篇用WorkBuddy零代码5分钟创建你的首个AI技能 下一篇AI研发新瓶颈:测试推理与流程编排取代写代码
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
微软Copilot插件安装全流程:浏览器与扩展市场配置
AI教程 · 2026-07-01

微软Copilot插件安装全流程:浏览器与扩展市场配置

围绕MicrosoftCopilot在浏览器、编辑器和扩展市场中的安装与配置,梳理账号准备、安装步骤、权限检查、常见故障及安全使用边界,适合新手快速完成AI办公工具部署。

Microsoft Copilot Docker 一键部署指南:镜像拉取、端口映射与数据目录配置
AI教程 · 2026-07-01

Microsoft Copilot Docker 一键部署指南:镜像拉取、端口映射与数据目录配置

围绕Copilot类AI办公工具的Docker部署流程,说明镜像选择、拉取校验、端口映射、数据目录挂载、环境变量配置、更新回滚与常见故障处理。

微软Copilot API密钥注册获取与国内网络配置
AI教程 · 2026-07-01

微软Copilot API密钥注册获取与国内网络配置

围绕MicrosoftCopilot相关接口接入流程,梳理账号准备、Azure资源创建、密钥获取、环境变量配置、国内网络连通性优化、常见报错处理与安全管理要点。

微软Copilot Linux部署:环境准备到后台运行全流程
AI教程 · 2026-07-01

微软Copilot Linux部署:环境准备到后台运行全流程

MicrosoftCopilot不适合按本地模型方式安装,Linux服务器更常见的是部署企业入口或集成服务。流程需完成账号授权、运行环境、服务配置、反向代理、进程守护与日志监控,并注意数据权限、访问控制和合规边界。

Microsoft Copilot macOS安装教程:Apple Silicon与Intel配置步骤
AI教程 · 2026-07-01

Microsoft Copilot macOS安装教程:Apple Silicon与Intel配置步骤

MicrosoftCopilot在Mac上可通过网页应用、Edge侧边栏或Microsoft365组件使用,AppleSilicon与Intel机型重点在系统版本、浏览器、账号授权和隐私设置。