顶尖机构联手用代码历史训练AI让机器人像程序员一样思考长期项目

首页

热心网友

转载

2026-05-12

这项由上海交通大学、中国科学院计算技术研究所、香港理工大学等顶尖机构联合进行的研究发表于2026年2月，论文编号为arXiv:2602.02619v1，为解决AI在长期复杂任务中的表现问题提供了全新思路。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

SII-GAIR等顶尖机构联手，用代码版本历史训练AI，让机器人像程序员一样思考长期项目

处理复杂事务，无论是建造一栋房子还是策划一场活动，从来都不是一蹴而就的。它需要清晰的步骤、有序的推进，以及每一步都为下一步铺路的远见。然而，当前的主流AI助手，尽管在回答单一问题或执行孤立指令时表现出色，一旦面对需要长期规划和多步骤协调的复杂项目，往往就显得力不从心，像个缺乏全局观的新手。

这背后的核心困境在于，AI缺乏学习如何“统筹”的教材。传统的训练方法，好比让学生反复练习一本本习题集，每道题或许都能解对，但学生依然不知道如何综合运用这些知识去完成一个真实的毕业设计或工程项目。那么，去哪里寻找这种关于“过程”和“规划”的智慧呢？研究团队将目光投向了一个意想不到的领域——软件开发的版本控制历史。

一、从程序员的工作方式中寻找灵感

程序员的工作模式，恰好为AI学习长期规划提供了近乎完美的范本。当开发一个新功能时，有经验的程序员不会试图一次性提交所有代码。相反，他们会将工作拆解成一系列逻辑连贯的小步骤，每一步都通过一个“Pull Request”（代码合并请求）来提交和记录。

这个过程本身就蕴含了项目管理的精髓。例如，为一个电商平台添加评论功能，第一步可能是建立数据库表结构，第二步是设计后端API接口，第三步才是开发前端交互界面，最后还需修复测试中发现的各类问题。每一步都环环相扣，形成了一个清晰的演进链条。

更有价值的是，这些Pull Request不仅是“做了什么”的清单，更是“为什么这么做”的思考日志。每个提交都附有详细的说明，解释这一步要解决什么问题、遇到了何种挑战、以及最终采用了什么方案。这就像一份完整的项目施工日志，完整记录了从蓝图到落地的全部决策轨迹。

研究团队敏锐地意识到，这种自然形成的开发历史中，包含了三个对长期规划至关重要的能力要素：任务分解、长期一致性以及迭代改进。而这，正是传统AI训练数据中所普遍缺失的维度。

二、daVinci-Agency：模仿程序员思维的训练方法

基于这一洞察，研究团队开发了名为“daVinci-Agency”的新型训练方法。其核心理念，是让AI像学徒一样，沉浸式地学习程序员完成整个复杂项目的完整过程，而非仅仅记忆零散的代码片段。

具体实施上，团队从GitHub上精心选取了九个大型开源项目，涵盖科学计算、大数据处理、现代开发工具等不同领域，从中提取了超过六万个Pull Request的历史记录。关键在于，他们并非孤立地看待这些提交，而是通过分析描述和评论中的引用关系，像拼图一样，将那些存在逻辑依赖的Pull Request串联起来，最终构建出239条完整的开发故事线。

这些训练样本的信息密度极高，平均每条包含约8.5万个词汇和116次工具调用记录。可以说，每个样本都是一部详尽的“项目诞生记”。

三、让AI学会像项目经理一样思考

训练过程本身也模拟了真实的项目推进。AI需要从一个初始需求出发，规划步骤，逐步执行，并在过程中基于上一步的结果进行调整。这就像让AI参与一个真实的项目实习，每一步都建立在前一步的基础之上，任何环节的失误都可能影响全局。

为了确保学习质量，研究团队引入了一个严格的“质量门控”机制：由另一个AI模型扮演“项目经理”，对AI生成的解决方案进行评审，只有评分足够高（0.8分以上，满分1.0）的方案才会被采纳为有效训练数据。这种设计迫使AI不仅要给出答案，更要给出逻辑清晰、考虑周全的“好答案”。

四、令人惊喜的实验结果

效果是立竿见影的。在基于GLM-4.6等模型的微调实验中，仅使用了239个高质量样本的daVinci-Agency方法，展现出了显著优势。

在衡量AI使用工具解决复杂任务能力的Toolathlon基准测试中，性能提升了47%。更值得注意的是效率的飞跃：训练后的AI在解决问题时，平均少用了11.36万个词汇，工具调用次数也减少了25.8%。这并非“偷工减料”，而是AI学会了更精准地定位问题核心，避免了大量无效的试探和冗余操作，如同经验丰富的医生能快速诊断，而无需进行全套检查。

另一个有趣的发现是，训练样本链条的长度与AI表现呈正相关。当样本平均长度增加时，AI的规划能力会进一步提升。这表明，处理更长、更复杂的任务序列，确实能有效锻炼AI的长期思考肌肉。

五、AI学会了程序员的“职业素养”

行为分析揭示了更深层的变化。面对一个复杂的软件bug修复任务，未经训练的AI表现得手忙脚乱，在遇到环境配置错误时会反复尝试不相关的方案，甚至可能“逃避”到一些简单但无效的替代路径上。

而经过daVinci-Agency训练的AI，则展现出了专业范儿。它会系统性地分析问题，制定清晰的解决步骤，并有序执行。一个生动的例子是，AI在编写代码时，会突然“意识”到自己正在创建一个可能导致无限递归的方法，并主动停下来修正：“等等，这里我调用了自己，会导致无限递归。应该改用父类的方法。”这种“顿悟时刻”，标志着AI开始真正理解代码背后的逻辑关系，而不仅仅是进行模式匹配。

六、跨越模型边界的普适性

这一方法的有效性并非特定于某个模型架构。研究团队在包括Qwen3系列在内的多种不同规模和结构的模型上进行了验证，均观察到了显著的性能提升。这强烈暗示，daVinci-Agency触及了AI学习长期规划能力的某种通用原则。一个鼓舞人心的发现是，即使对于参数量较小的模型，该方法也能带来明显改善，这为在资源受限环境下提升AI的复杂任务处理能力提供了新思路。

七、数据质量胜过数量的重要启示

这项研究最发人深省的启示之一，是关于数据质量与数量的权衡。传统观念往往认为“数据越多越好”，但daVinci-Agency仅用239个精心构建的高质量样本，其效果就超越了使用6.6万个普通样本进行训练的传统方法。

这背后的关键在于严格的质量筛选机制。研究团队通过“拒绝采样”过程，只保留那些真正优秀、逻辑完备的解决方案作为训练数据。对比实验证实，如果使用相同数量但未经筛选的原始数据，AI的性能反而会下降。这清晰地表明，低质量的训练数据不仅无益，甚至有害。对于AI训练而言，精心烹制的“精品菜肴”远比堆砌“食材数量”更重要。

八、方法的局限性与未来展望

当然，当前方法也存在局限。目前，能够稳定串联的Pull Request链条长度最多为5步。构建更长的可靠链条在技术上仍具挑战，就像搭建越长的多米诺骨&牌，确保全程无误的难度就越大。

但初步实验显示，更长的训练链条能带来更好的效果，这指明了未来的改进方向。此外，当前数据主要来源于软件开发领域。可以设想，如果能够获取科学研究、产品设计、建筑规划等其他领域中类似的、记录了完整决策过程的项目历史数据，或许能进一步释放这种训练范式的潜力。

归根结底，这项研究最重要的贡献，在于它提供了一种全新的AI训练哲学：与其让AI海量吞咽孤立的“知识碎片”，不如让它系统地学习人类专家如何一步步解决真实、复杂的“完整问题”。它让AI向真正的“智能体”迈进了一步——一个能规划、能协调、能反思的助手，而不仅仅是一个问答工具。当AI开始学会像人类一样“谋定而后动”，其所能带来的变革，无疑将更加深远。

Q&A

Q1：daVinci-Agency训练方法和传统AI训练有什么区别？
传统AI训练类似于让学生反复练习孤立的习题，目标是掌握单项技能。而daVinci-Agency则是让AI沉浸式地学习完整的项目历史，从程序员如何分解任务、保持长期目标一致到中途修正错误的全过程中，习得项目规划和执行的综合能力。这是从“会炒一道菜”到“能操办一桌宴席”的本质区别。

Q2：为什么只用239个训练样本就能超越用66000个样本训练的模型？
核心差异在于数据的“信息密度”和“质量”。daVinci-Agency的每个样本都是一个信息高度浓缩的完整项目故事，且经过了严格筛选，只保留逻辑清晰、解决方案优秀的范例。这好比用少量顶级食材精心烹制，其效果远胜于大量普通食材的简单堆砌。质量远比数量关键。

Q3：daVinci-Agency训练的AI在实际使用中有什么明显改进？
最直观的改进是效率与精准度的双重提升。AI在解决问题时，所需的“思考篇幅”（词汇量）和“动作次数”（工具调用）大幅减少，但效果更好。更深层的改进在于，AI开始展现出类似人类专家的“洞察力”和“预见性”，例如能在编码过程中主动发现潜在的逻辑陷阱并提前规避，这表明它正在从“模仿”走向“理解”。

来源:https://www.techwalker.com/2026/0205/3178637.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：上海交大联合腾讯优图研发AI自进化学习新方法下一篇：中科大团队突破AI全栈网站开发实现自动化智能搭建