实测OpenSquilla自我验证：AI编程信任问题彻底解决_AI热点日报

实测OpenSquilla自我验证：AI编程信任问题彻底解决

类型：热点整理2026-07-03

OpenSquilla通过红绿回归证据链实现AI编程的自我验证：先写失败测试证明问题存在，再修复代码使测试通过，最后运行回归测试确保无新问题。实测显示三关全过可自证代码正确性，将评价标准从承诺制转为举证制，提升长任务可信度。

上周GitHub上出现了一个令人眼前一亮的新项目：OpenSquilla。

实测OpenSquilla的

上线不到一个月，GitHub Star已经突破5000+。它的核心卖点听起来有些不可思议——让AI写代码时，自动生成可验证的证据链，证明代码的正确性。

说实话，AI编程一直存在一个难以根治的痛点：不是“写不对”，而是“写完以后无法确定对错”。许多AI Coding工具修改完就交付，是对是错还得靠人逐行复查，效率实际上大打折扣。

OpenSquilla的解决思路截然不同：将验证机制直接内化到Agent自身。这个方向确实值得深入探索，于是我花了两晚上仔细进行了实测。

先说它解决了什么核心问题

传统AI编程的工作流程通常如下：

用户提出需求
AI生成代码
人工验证代码是否正确
若不正确，让AI继续修改
循环反复，直到人工满意为止

这个流程的关键瓶颈在于：验证环节完全依赖人工。

对于简单的函数，比如写一个排序算法，验证成本很低。但对于复杂系统，比如实现分布式锁或复杂的状态机，验证成本会急剧上升——你不仅要自己编写测试用例，还要设计边界场景、运行回归测试，整个过程耗时费力。

OpenSquilla的做法则是：让AI在交付代码之前，先自行执行一遍“红绿回归证据链”。

核心技术：红绿回归证据链

它的工作流程分为三步，环环相扣：

第一步：写一个注定失败的测试

AI先编写一个测试用例，该测试用例用来验证“问题确实存在”。

举例来说，如果用户提出的需求是“修复排序函数在边界情况下的bug”，AI会先编写一个测试用例，验证“排序函数在某些输入下会返回错误结果”。

这个测试用例必须是红的——它必须失败，因为它证明的是bug的存在。

第二步：修复问题，让测试变绿

AI接着修复代码，使测试用例通过。

此时，如果测试从红变绿，就说明AI确实解决了问题。

第三步：运行回归测试

AI运行项目原有的所有测试用例，确保没有引入新问题。

如果所有测试均通过，则代码交付完成。

三步全部通过才算交付，任何一步不通过直接打回重做。

实测验证

我选取了一个极具代表性的场景：为开源项目 micrograd（Karpathy的自动微分库）新增一个“计算正确梯度”的功能。

这个功能的特点是：梯度一旦算错，模型不会报错也不会崩溃，只会悄悄越学越偏。这种bug最难发现，肉眼根本无法判断对错。

实测流程如下：

Step 1：AI编写失败测试

AI先写了一个测试用例，输入特定的梯度计算请求，预期输出是“梯度值在某个范围内”。结果测试失败——说明梯度计算确实存在问题。

Step 2：AI修复梯度计算

AI修改了梯度计算的代码，然后重新运行测试。这次测试通过了。

Step 3：AI运行回归测试

AI运行了micrograd原有的所有测试用例，确保没有破坏其他功能。所有测试均通过。

Step 4：AI与PyTorch对比

最后，AI将新功能计算出的梯度值与PyTorch计算出的标准答案进行了对比——前向值与每一个梯度在小数点后10位完全一致。

印象最深的三个发现

实测完成之后，我看到了几个有意思的点：

发现1：自我验证改变了评价标准

以往评价AI编程工具，看的是“它声称改对了没有”。现在有了自我验证，评价标准变成了“它能否自证改对了”。

这意味着，AI编程工具从“承诺制”转变成了“举证制”。

发现2：测试驱动开发被重新定义

传统TDD（测试驱动开发）是由人写测试、人验证。OpenSquilla将验证环节自动化，变成了AI写测试、AI验证。

这并不意味着人可以完全放手——人的角色转变为 “审核证据的人”，而不是“执行验证的人”。

发现3：长任务的可信度大幅提升

以前让AI执行一个复杂任务（比如重构一个模块），不放心让它自己跑，必须全程盯着。现在有了自我验证机制，可以先让AI自行运行，跑完之后查看它的“证据链”——三关全过，就信任它；任何一关不过，再介入人工。

技术细节：它是如何实现的

OpenSquilla的核心架构分为三层：

第一层：Agent层

负责理解用户需求，规划实现步骤，并决定是否需要生成测试。

第二层：Coding层

负责代码生成与修改。它有一个显著特点——每次修改都会自动生成对应的测试用例，而不是等用户问了才写。

第三层：验证层

负责执行测试、分析结果、决定是否继续。验证层有三种策略：

单元测试：验证单个函数的行为
集成测试：验证多个组件的协作
对比测试：与已知正确答案对比（如PyTorch）

判断：可验证性将成为AI编程的标配

实测下来，OpenSquilla解决的不是“AI写代码”的问题，而是“AI写代码的信任问题”。

在AI编程工具刚出现时，大家关注的是“能不能写对”。现在关注点已经转向“能不能证明写对了”。

这是一个很重要的转变——它意味着AI编程从“能用”走向“可信”。

未来，评估一个AI编程工具好不好，不仅看它生成的代码是否正确，还要看它是否具备自证对错的能力。

来源：https://developer.volcengine.com/articles/7657798524826255414

ai AI解决方案

延伸阅读

补充最近整理过的热点入口。