首页 游戏 软件 资讯 排行榜 专题
首页
AI
顶尖机构联手用代码历史训练AI让机器人像程序员一样思考长期项目

顶尖机构联手用代码历史训练AI让机器人像程序员一样思考长期项目

热心网友
18
转载
2026-05-12

这项由上海交通大学、中国科学院计算技术研究所、香港理工大学等顶尖机构联合进行的研究发表于2026年2月,论文编号为arXiv:2602.02619v1,为解决AI在长期复杂任务中的表现问题提供了全新思路。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

SII-GAIR等顶尖机构联手,用代码版本历史训练AI,让机器人像程序员一样思考长期项目

处理复杂事务,无论是建造一栋房子还是策划一场活动,从来都不是一蹴而就的。它需要清晰的步骤、有序的推进,以及每一步都为下一步铺路的远见。然而,当前的主流AI助手,尽管在回答单一问题或执行孤立指令时表现出色,一旦面对需要长期规划和多步骤协调的复杂项目,往往就显得力不从心,像个缺乏全局观的新手。

这背后的核心困境在于,AI缺乏学习如何“统筹”的教材。传统的训练方法,好比让学生反复练习一本本习题集,每道题或许都能解对,但学生依然不知道如何综合运用这些知识去完成一个真实的毕业设计或工程项目。那么,去哪里寻找这种关于“过程”和“规划”的智慧呢?研究团队将目光投向了一个意想不到的领域——软件开发的版本控制历史。

一、从程序员的工作方式中寻找灵感

程序员的工作模式,恰好为AI学习长期规划提供了近乎完美的范本。当开发一个新功能时,有经验的程序员不会试图一次性提交所有代码。相反,他们会将工作拆解成一系列逻辑连贯的小步骤,每一步都通过一个“Pull Request”(代码合并请求)来提交和记录。

这个过程本身就蕴含了项目管理的精髓。例如,为一个电商平台添加评论功能,第一步可能是建立数据库表结构,第二步是设计后端API接口,第三步才是开发前端交互界面,最后还需修复测试中发现的各类问题。每一步都环环相扣,形成了一个清晰的演进链条。

更有价值的是,这些Pull Request不仅是“做了什么”的清单,更是“为什么这么做”的思考日志。每个提交都附有详细的说明,解释这一步要解决什么问题、遇到了何种挑战、以及最终采用了什么方案。这就像一份完整的项目施工日志,完整记录了从蓝图到落地的全部决策轨迹。

研究团队敏锐地意识到,这种自然形成的开发历史中,包含了三个对长期规划至关重要的能力要素:任务分解、长期一致性以及迭代改进。而这,正是传统AI训练数据中所普遍缺失的维度。

二、daVinci-Agency:模仿程序员思维的训练方法

基于这一洞察,研究团队开发了名为“daVinci-Agency”的新型训练方法。其核心理念,是让AI像学徒一样,沉浸式地学习程序员完成整个复杂项目的完整过程,而非仅仅记忆零散的代码片段。

具体实施上,团队从GitHub上精心选取了九个大型开源项目,涵盖科学计算、大数据处理、现代开发工具等不同领域,从中提取了超过六万个Pull Request的历史记录。关键在于,他们并非孤立地看待这些提交,而是通过分析描述和评论中的引用关系,像拼图一样,将那些存在逻辑依赖的Pull Request串联起来,最终构建出239条完整的开发故事线。

这些训练样本的信息密度极高,平均每条包含约8.5万个词汇和116次工具调用记录。可以说,每个样本都是一部详尽的“项目诞生记”。

三、让AI学会像项目经理一样思考

训练过程本身也模拟了真实的项目推进。AI需要从一个初始需求出发,规划步骤,逐步执行,并在过程中基于上一步的结果进行调整。这就像让AI参与一个真实的项目实习,每一步都建立在前一步的基础之上,任何环节的失误都可能影响全局。

为了确保学习质量,研究团队引入了一个严格的“质量门控”机制:由另一个AI模型扮演“项目经理”,对AI生成的解决方案进行评审,只有评分足够高(0.8分以上,满分1.0)的方案才会被采纳为有效训练数据。这种设计迫使AI不仅要给出答案,更要给出逻辑清晰、考虑周全的“好答案”。

四、令人惊喜的实验结果

效果是立竿见影的。在基于GLM-4.6等模型的微调实验中,仅使用了239个高质量样本的daVinci-Agency方法,展现出了显著优势。

在衡量AI使用工具解决复杂任务能力的Toolathlon基准测试中,性能提升了47%。更值得注意的是效率的飞跃:训练后的AI在解决问题时,平均少用了11.36万个词汇,工具调用次数也减少了25.8%。这并非“偷工减料”,而是AI学会了更精准地定位问题核心,避免了大量无效的试探和冗余操作,如同经验丰富的医生能快速诊断,而无需进行全套检查。

另一个有趣的发现是,训练样本链条的长度与AI表现呈正相关。当样本平均长度增加时,AI的规划能力会进一步提升。这表明,处理更长、更复杂的任务序列,确实能有效锻炼AI的长期思考肌肉。

五、AI学会了程序员的“职业素养”

行为分析揭示了更深层的变化。面对一个复杂的软件bug修复任务,未经训练的AI表现得手忙脚乱,在遇到环境配置错误时会反复尝试不相关的方案,甚至可能“逃避”到一些简单但无效的替代路径上。

而经过daVinci-Agency训练的AI,则展现出了专业范儿。它会系统性地分析问题,制定清晰的解决步骤,并有序执行。一个生动的例子是,AI在编写代码时,会突然“意识”到自己正在创建一个可能导致无限递归的方法,并主动停下来修正:“等等,这里我调用了自己,会导致无限递归。应该改用父类的方法。”这种“顿悟时刻”,标志着AI开始真正理解代码背后的逻辑关系,而不仅仅是进行模式匹配。

六、跨越模型边界的普适性

这一方法的有效性并非特定于某个模型架构。研究团队在包括Qwen3系列在内的多种不同规模和结构的模型上进行了验证,均观察到了显著的性能提升。这强烈暗示,daVinci-Agency触及了AI学习长期规划能力的某种通用原则。一个鼓舞人心的发现是,即使对于参数量较小的模型,该方法也能带来明显改善,这为在资源受限环境下提升AI的复杂任务处理能力提供了新思路。

七、数据质量胜过数量的重要启示

这项研究最发人深省的启示之一,是关于数据质量与数量的权衡。传统观念往往认为“数据越多越好”,但daVinci-Agency仅用239个精心构建的高质量样本,其效果就超越了使用6.6万个普通样本进行训练的传统方法。

这背后的关键在于严格的质量筛选机制。研究团队通过“拒绝采样”过程,只保留那些真正优秀、逻辑完备的解决方案作为训练数据。对比实验证实,如果使用相同数量但未经筛选的原始数据,AI的性能反而会下降。这清晰地表明,低质量的训练数据不仅无益,甚至有害。对于AI训练而言,精心烹制的“精品菜肴”远比堆砌“食材数量”更重要。

八、方法的局限性与未来展望

当然,当前方法也存在局限。目前,能够稳定串联的Pull Request链条长度最多为5步。构建更长的可靠链条在技术上仍具挑战,就像搭建越长的多米诺骨&牌,确保全程无误的难度就越大。

但初步实验显示,更长的训练链条能带来更好的效果,这指明了未来的改进方向。此外,当前数据主要来源于软件开发领域。可以设想,如果能够获取科学研究、产品设计、建筑规划等其他领域中类似的、记录了完整决策过程的项目历史数据,或许能进一步释放这种训练范式的潜力。

归根结底,这项研究最重要的贡献,在于它提供了一种全新的AI训练哲学:与其让AI海量吞咽孤立的“知识碎片”,不如让它系统地学习人类专家如何一步步解决真实、复杂的“完整问题”。它让AI向真正的“智能体”迈进了一步——一个能规划、能协调、能反思的助手,而不仅仅是一个问答工具。当AI开始学会像人类一样“谋定而后动”,其所能带来的变革,无疑将更加深远。

Q&A

Q1:daVinci-Agency训练方法和传统AI训练有什么区别?
传统AI训练类似于让学生反复练习孤立的习题,目标是掌握单项技能。而daVinci-Agency则是让AI沉浸式地学习完整的项目历史,从程序员如何分解任务、保持长期目标一致到中途修正错误的全过程中,习得项目规划和执行的综合能力。这是从“会炒一道菜”到“能操办一桌宴席”的本质区别。

Q2:为什么只用239个训练样本就能超越用66000个样本训练的模型?
核心差异在于数据的“信息密度”和“质量”。daVinci-Agency的每个样本都是一个信息高度浓缩的完整项目故事,且经过了严格筛选,只保留逻辑清晰、解决方案优秀的范例。这好比用少量顶级食材精心烹制,其效果远胜于大量普通食材的简单堆砌。质量远比数量关键。

Q3:daVinci-Agency训练的AI在实际使用中有什么明显改进?
最直观的改进是效率与精准度的双重提升。AI在解决问题时,所需的“思考篇幅”(词汇量)和“动作次数”(工具调用)大幅减少,但效果更好。更深层的改进在于,AI开始展现出类似人类专家的“洞察力”和“预见性”,例如能在编码过程中主动发现潜在的逻辑陷阱并提前规避,这表明它正在从“模仿”走向“理解”。

来源:https://www.techwalker.com/2026/0205/3178637.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Piper Sandler称特斯拉AI与机器人价值被低估目标价升至500美元
科技数码
Piper Sandler称特斯拉AI与机器人价值被低估目标价升至500美元

如果特斯拉每股400美元的股价已经充分反映了其电动汽车和能源业务的全部价值,那么Optimus、无人驾驶出租车和人工智能,就相当于市场白送给投资者的“看涨期权”。这是Piper Sandler分析师Alexander Potter提出的一个有趣视角。尽管他承认特斯拉近期面临执行风险,但仍坚持500美

热心网友
05.12
睿尔曼数采中心2.0落地常州 加速机器人理解真实物理世界
科技数码
睿尔曼数采中心2.0落地常州 加速机器人理解真实物理世界

2026年5月11日,常州具身智能数据实验平台在武进国家高新区正式启动运营。该平台部署了150台RealBOT轮式人形机器人,具备执行超1000种真实作业任务的能力,整体建设面积达3000平方米。其核心在于依托睿尔曼的GLN远程作业网络,将机器人直接部署于工厂产线、仓储物流、家庭服务、电力运维等真实

热心网友
05.12
顶尖机构联手用代码历史训练AI让机器人像程序员一样思考长期项目
AI
顶尖机构联手用代码历史训练AI让机器人像程序员一样思考长期项目

这项由上海交通大学、中国科学院计算技术研究所、香港理工大学等顶尖机构联合进行的研究发表于2026年2月,论文编号为arXiv:2602 02619v1,为解决AI在长期复杂任务中的表现问题提供了全新思路。 处理复杂事务,无论是建造一栋房子还是策划一场活动,从来都不是一蹴而就的。它需要清晰的步骤、有序

热心网友
05.12
国民技术与荣耀越疆机器人达成战略合作
科技数码
国民技术与荣耀越疆机器人达成战略合作

2026年5月12日,国民技术(股票代码:300077 SZ)正式推出其旗舰产品——N32H7 N32H4系列高性能微控制器(MCU)。该系列芯片旨在为多元化的机器人形态,提供涵盖核心运动控制、硬件安全加密与高速无线连接的全栈式芯片解决方案,成为推动具身智能从技术概念迈向规模化应用的关键硬件基石。

热心网友
05.12
日本高达机器人售价390万元起 真机亮相引热议
科技数码
日本高达机器人售价390万元起 真机亮相引热议

宇树科技发布全球首款量产载人变形机甲GD01,起售价390万元。该机甲重约500公斤,采用高强度合金与伺服驱动系统,可直立行走并设有封闭载人舱,实测动力强劲。机器人还具备变形能力,可切换为四足形态以提升稳定性,目标市场包括文旅展示、特种作业及高端出行。产品标志着载人机甲从科幻步入。

热心网友
05.12

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

阿里云百炼记忆库解决AI多轮对话遗忘难题
业界动态
阿里云百炼记忆库解决AI多轮对话遗忘难题

2026年4月9日,阿里云旗下的AI开发平台“百炼”正式发布了名为“记忆库”的全新功能。这项功能的核心价值,在于为AI Agent赋予跨会话的长期记忆能力,旨在彻底解决多轮对话中信息丢失与遗忘的行业核心痛点。目前,该功能正处于限时免费公测阶段。官方性能数据显示,其在关键指标上表现突出:记忆检索性能大

热心网友
05.12
全链网30官方报价6.7946 最新行情分析与解读
web3.0
全链网30官方报价6.7946 最新行情分析与解读

今天外汇市场的表现,可以说是在平静中透着一丝韧性。北京时间下午四点半,在岸软妹币对美元汇率官方收盘价定格在6 7946。 这个数字背后有两个值得玩味的对比:一是比起前一个交易日的官方收盘价,小幅上扬了8个基点;二是相较于昨晚夜盘的收盘价,则回升了17个基点。虽然波动幅度不大,但这种日内低开后的企稳回

热心网友
05.12
北境墓碑全收集攻略 遥遥西土地图点位详解
游戏攻略
北境墓碑全收集攻略 遥遥西土地图点位详解

《遥遥西土》北境区域共有十个墓碑等待收集。首个墓碑位于地图北部悬崖下方,玩家需跳至崖底才能发现,其旁另有一座墓碑作为参照。具体位置与探索方法可参考相关视频攻略。

热心网友
05.12
归环好彩骰获取途径大全与快速入手方法
游戏攻略
归环好彩骰获取途径大全与快速入手方法

归环好彩骰”是游戏的核心机制,通过投掷骰子组合牌型获得奖励。它将叙事、战斗与成长深度整合,玩家的选择与骰点结果直接影响剧情走向和战斗效果。机制简单易上手,无时间压力,提供即时强反馈。游戏结合“万相卡”与角色流派,支持多样策略,平衡随机性,提升了内容探索深度与复用价值。

热心网友
05.12
植物大战僵尸抽卡重置版上线时间确定 开服日期与预约指南
游戏攻略
植物大战僵尸抽卡重置版上线时间确定 开服日期与预约指南

《植物大战僵尸》抽卡重置版已上线,核心玩法融合塔防与抽卡。游戏包含七阶卡池系统,顶级卡牌稀缺。新增超百种原创植物,僵尸行为更复杂,关卡设计多样。随机植物模式增加变数,roguelike元素提升重复可玩性。版本持续更新,社区活跃。

热心网友
05.12