首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
皇后大学解密:AI与程序员如何协作审查代码

皇后大学解密:AI与程序员如何协作审查代码

热心网友
97
转载
2026-03-31


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

当你写完一段代码,准备提交到项目中时,通常会有同事帮你检查一遍——这个过程叫做代码审查,就像文章发表前的编辑校对一样重要。不过现在情况有了变化:越来越多的AI机器人也开始参与代码审查工作,它们能自动发现bug、提出改进建议,甚至与人类开发者展开讨论。这引发了一个有趣的问题:AI审查员和人类审查员到底谁更厉害?它们的合作效果如何?

加拿大皇后大学的研究团队最近完成了一项大规模研究,分析了278,790次代码审查对话,涵盖300个开源GitHub项目,时间跨度从2024年到2025年。这项研究发表于2026年3月的arXiv预印本平台,论文编号为arXiv:2603.15911v1。研究团队深入探讨了AI机器人审查员与人类审查员在反馈质量、互动模式和建议采纳率方面的差异,为我们揭示了人机协作审查的真实面貌。

研究发现,AI机器人的表现确实令人印象深刻,但也暴露出明显的局限性。AI机器人生成的评论比人类长得多,平均每行代码产生29.6个词汇,而人类只需要4.1个词汇。更有趣的是,AI机器人几乎完全专注于代码改进和错误检测,超过95%的评论都集中在这两个方面。相比之下,人类审查员的反馈更加多样化,不仅关注技术问题,还会进行理解确认、知识传授和测试建议。

在实际应用效果方面,研究揭示了一个令人意外的现象:虽然AI机器人提出的代码建议数量是人类的三倍多(88,011个对比25,673个),但它们的建议被采纳率却显著偏低,只有16.6%,而人类审查员的建议采纳率高达56.5%。更值得注意的是,当AI机器人的建议被采纳后,往往会增加代码的复杂性和体积,这与良好的编程实践相矛盾。

一、AI机器人审查员:话多但精准度有限的助手

当我们把AI机器人比作一位勤奋但经验不足的新员工时,就能更好地理解它们的工作特点。这位"新员工"非常努力,总是写很长很详细的报告,但往往抓不住重点,有时还会犯一些基础错误。

研究团队通过分析发现,AI机器人审查员有着鲜明的工作风格特征。它们就像那种做事特别认真、报告写得特别详细的同事,每次都要把所有细节说得清清楚楚。当人类审查员只需要简单指出"这里有个小问题"时,AI机器人会写一大段话,不仅指出问题,还要解释原因、引用相关规则、列出需要修改的文件清单,甚至给出严重性等级。

这种差异就像两种不同的沟通方式:人类审查员更像经验丰富的老师,能够一针见血地指出核心问题;而AI机器人更像刚入职的实习生,什么都想说,生怕遗漏重要信息。虽然详细程度高,但这种冗长的表达方式往往会增加阅读负担,让开发者需要花更多时间理解建议的核心内容。

更重要的是,AI机器人的关注点相当有限。研究显示,它们几乎把所有注意力都集中在两个方面:发现代码错误和提出改进建议。这就像一个只会查语法错误和标点符号的校对软件,虽然在这些方面很专业,但完全不会考虑文章的逻辑结构、读者感受或者写作目的。

相比之下,人类审查员的反馈就丰富多了。除了技术问题,他们还会问"你为什么要这样实现?"、"这个设计考虑了哪些场景?"或者"我建议你看看项目中的其他类似实现"。这些问题反映了人类审查员不仅关注代码本身,还关注背后的设计思路、团队知识共享和项目一致性。

研究还发现了一个有趣现象:当涉及理解和澄清的讨论时,人类主导的对话往往会产生更多轮次的交流。平均来说,理解类反馈会引发2.1到2.3轮讨论,而AI机器人的反馈基本上都是"一次性消费",很少引发深入对话。这就像AI机器人更适合做标准化检查工作,而人类更擅长进行深度交流和知识传递。

二、人机对话模式:谁说话、何时说、如何结束

代码审查中的人机互动就像一场精心编排的对话剧,每个角色都有自己的台词和出场时机。研究团队通过分析这些对话模式,发现了一些令人意外的规律。

当人类审查员遇到AI生成的代码时,对话变得格外"活跃"。数据显示,人类审查员在审查AI生成代码时的交流轮次比审查人类代码时多出11.8%。这种现象很好理解:当你读到一段看起来正确但又感觉哪里不对的代码时,自然会产生更多疑问。人类审查员经常需要多问几句"你为什么要这样写?"、"这个逻辑的依据是什么?"来确保自己真正理解了AI的想法。

这种情况就像你在阅读一本翻译小说,虽然语法和用词都没问题,但总感觉表达方式有些别扭,于是不得不反复琢磨作者的真实意图。AI生成的代码也会给人类审查员带来类似的困惑,需要更多轮的确认和澄清。

然而,当AI机器人扮演审查员角色时,对话模式就完全不同了。研究发现,85%到87%的AI发起的审查对话都在第一轮就结束了,没有任何后续交流。这就像AI机器人说完自己要说的话后就沉默了,不管别人是否理解、同意或者有其他想法。

这种行为模式反映了AI机器人在互动交流方面的重大局限。真正的代码审查往往不是一锤子买卖,而是一个持续的协商过程。审查员提出建议后,代码作者可能会解释自己的想法,审查员再根据新信息调整建议,双方经过几轮交流最终达成共识。但AI机器人目前还不具备这种动态调整和深度互动的能力。

更值得注意的是,研究发现了一个关于对话结局的重要模式:当对话以AI机器人的回复作为结尾时,代码被拒绝的概率显著提高(7.1%到25.8%),而以人类回复结尾的对话被拒绝率要低得多(0.9%到7.8%)。这个现象揭示了人类在最终决策中的关键作用。

可以把这种情况比作团队开会讨论项目方案:AI机器人善于提出技术性建议和发现问题,但人类更擅长综合考虑各种因素、权衡利弊并做出最终决定。当一场讨论以人类的总结和确认结束时,通常意味着各方已经达成共识;而如果讨论在AI机器人发言后就戛然而止,往往说明还有未解决的分歧或疑虑。

这种对话模式的分析为我们提供了重要启示:在设计人机协作的代码审查系统时,不应该让AI机器人完全替代人类,而应该让它们发挥各自的优势,AI负责初步筛查和标准化检查,人类负责深度讨论和最终决策。

三、建议质量大比拼:数量多不等于质量高

在代码审查中提出改进建议就像给菜谱提意见:有的建议一针见血,让整道菜立刻变得更美味;有的建议听起来有道理,但实施起来要么行不通,要么让菜变得更复杂。研究团队对AI机器人和人类审查员提出的代码建议进行了详细对比,结果发现了一个令人深思的现象。

从数量上看,AI机器人确实是"建议制造机",它们总共提出了88,011个代码修改建议,是人类审查员25,673个建议的三倍多。但正如俗话说的"贵精不贵多",建议的质量比数量更重要。事实证明,AI机器人的建议虽然多,但被实际采纳的比例却令人失望。

具体来看,人类审查员的建议有56.5%被采纳并最终合并到代码库中,而AI机器人的采纳率只有16.6%。这种巨大差距就像两个购物顾问的表现对比:一个经验丰富的顾问推荐的商品你会经常购买,而另一个新手顾问虽然推荐了很多商品,但你真正买的寥寥无几。

为什么会出现这种差距?研究团队深入分析了那些未被采纳的AI建议,发现了几个主要原因。最常见的问题是AI机器人的建议本身就是错误的,占未采纳建议的28.7%。比如,AI机器人可能会指出某个命名空间缺失会导致编译失败,但实际上这个命名空间在项目的其他地方已经正确引入了,代码能够正常编译。这就像一个不熟悉厨房布局的人告诉厨师"盐找不到了",但实际上盐就在厨师触手可及的地方。

第二大问题是"方案不匹配",占24.0%。在这种情况下,AI机器人确实发现了真实存在的问题,但提出的解决方案与开发者的实际想法不符。这就像AI机器人发现了菜品味道偏淡的问题(分析正确),但建议加糖(方案不合适),而厨师实际想加的是盐。

除此之外,还有16.4%的建议被认为是"不必要的"——AI机器人提出的修改在技术上可行,但开发者认为当前的实现已经足够好,不需要改变。另有11.2%的情况是开发者声称已经修复了问题,但实际上并没有在代码库中看到相应的更改。

这些问题的根本原因在于AI机器人缺乏项目上下文的理解能力。它们就像一个从教科书学会做菜的厨师,知道很多通用规则和技巧,但不了解这家餐厅的特色、食客的偏好,以及现有菜谱的设计理念。

相比之下,人类审查员的建议质量为什么更高?研究发现,人类在提出建议时会综合考虑多个因素:项目的整体架构、团队的编码风格、已有的设计决策,以及实际的业务需求。他们不仅关注代码的技术正确性,还会考虑可维护性、可读性和与现有系统的一致性。

更重要的是,当AI机器人的建议被采纳后,代码的复杂度往往会显著增加。研究数据显示,采纳AI建议后,代码复杂度的增长幅度比采纳人类建议时高出0.085到0.106个单位,代码行数的增长也更明显。这就像AI机器人总是倾向于提供更"安全"但也更复杂的解决方案,而人类更善于找到简洁优雅的解决办法。

不过,这并不意味着AI机器人的建议毫无价值。在某些特定领域,比如发现明显的编码错误或提醒遵循标准编码规范,AI机器人的表现还是相当不错的。问题在于如何更好地利用AI的优势,同时弥补它的不足。

四、人机协作的艺术:各展所长还是互相制肘

代码审查中的人机协作就像一支交响乐队的演出:每个乐手都有自己的专长,关键是如何协调配合,让整体效果达到最佳。研究团队通过分析大量的协作案例,发现了一些有趣的协作模式和潜在的改进方向。

在最理想的情况下,AI机器人和人类审查员能够形成互补关系。AI机器人擅长做那些标准化、重复性的检查工作,比如发现语法错误、检查代码格式、识别常见的安全漏洞等。这些工作对人类来说往往比较枯燥,而且容易因为注意力分散而遗漏。相当于让AI机器人担任"质检员"的角色,负责基础的质量把关。

与此同时,人类审查员则专注于需要创造性思维和深度理解的工作:评估设计方案的合理性、判断代码是否符合业务需求、进行知识传授和团队沟通等。这些工作需要丰富的经验、对项目背景的深度理解,以及良好的沟通技巧,是AI机器人目前还无法胜任的。

然而,现实中的协作并非总是如此和谐。研究发现了一些值得关注的问题。比如,当AI机器人参与审查时,人类审查员往往需要花更多时间来理解和验证AI的建议,这在一定程度上增加了工作负担。就像团队中新加入了一个热情但经验不足的成员,老员工需要花额外的时间来指导和检查新成员的工作。

另一个问题是AI机器人的"固执"特性。当人类审查员对AI的建议提出质疑或不同意见时,AI机器人往往无法进行有效的回应和调整。这就像一个只会按照说明书操作的助手,当遇到说明书上没有的情况时,就不知道该怎么办了。

研究还发现,不同类型的代码审查任务适合不同的协作模式。对于新项目或者实验性代码,人类主导的审查模式效果更好,因为这类代码往往需要更多的创新思考和灵活判断。而对于成熟项目中的常规维护工作,AI机器人能够发挥更大的作用,帮助快速识别明显的问题。

最有趣的发现是关于"审查接力"的现象。在一些复杂的代码审查中,AI机器人首先进行初步扫描,标记出可能的问题点,然后人类审查员基于这些信息进行深入分析和最终决策。这种模式既利用了AI的效率优势,又保证了人类判断的质量。

不过,这种协作模式也存在一些挑战。比如,如何确保AI机器人提供的信息是准确的?如何避免人类过度依赖AI的判断?如何在效率和质量之间找到平衡?这些都是需要在实践中不断探索和优化的问题。

研究团队发现,最成功的协作案例往往有几个共同特点:首先,明确分工,让AI和人类各自承担适合自己的任务;其次,建立有效的信息传递机制,确保AI的发现能够准确传达给人类审查员;最后,保持人类的最终决策权,确保重要决定都经过人类的审慎考虑。

五、背后的深层含义:技术进步与人文关怀的平衡

这项研究揭示的问题远比表面上的技术对比更加深刻。在AI技术快速发展的今天,我们正面临着一个根本性的选择:是让机器完全取代人类的判断,还是找到人机协作的最佳平衡点?

从表面上看,AI机器人在代码审查中的表现似乎不如人类,但这个结论需要更加细致的分析。AI机器人的价值不仅在于它能做什么,更在于它能为人类节省多少时间和精力。即使AI的建议采纳率不高,但它能够帮助人类快速筛选和识别潜在问题,这本身就是一种价值。

比如,AI机器人提出的88,011个建议中,虽然只有16.6%被采纳,但这意味着有14,600多个有价值的改进被实现了。如果没有AI的帮助,人类审查员可能根本没有时间和精力发现这么多问题。从这个角度看,AI机器人更像是一个"放大镜",帮助人类看到原本可能忽略的细节。

研究还反映了一个重要的社会学现象:技术的采用不仅仅是一个技术问题,更是一个社会适应问题。人类对AI建议的低采纳率,部分原因可能是对新技术的天然警惕和不信任。随着AI技术的不断改进和人们经验的积累,这种情况可能会发生改变。

同时,研究也提醒我们注意AI技术的局限性。AI机器人缺乏对项目背景和团队文化的理解,这不是一个纯粹的技术问题,而是涉及到知识的传承、经验的积累和人际关系的建立。这些"软技能"目前仍然是人类的独特优势。

从长远来看,这项研究为AI技术的发展指明了方向。未来的AI系统需要更好地理解项目上下文,学会与人类进行有效的双向沟通,并且能够根据反馈动态调整自己的行为。这不仅需要技术上的突破,也需要在系统设计时更多地考虑人性化因素。

另一个值得思考的问题是评价标准。我们是否应该简单地用采纳率来衡量AI建议的价值?也许AI提出的那些未被采纳的建议中,有一些虽然当时被拒绝,但为开发者提供了新的思考角度,或者在后续的开发中被证明是有价值的。这种隐性价值很难量化,但同样重要。

最后,这项研究也让我们思考工作的未来形态。代码审查只是软件开发过程中的一个环节,但它反映的问题具有普遍性:在AI技术快速发展的时代,如何重新定义人类的角色和价值?如何设计出真正有利于人类发展的人机协作模式?这些问题的答案将影响到每一个人的职业生涯和生活方式。

说到底,这项研究告诉我们的不仅仅是AI和人类在代码审查中的表现差异,更是关于人机协作的深层思考。AI机器人虽然在某些方面表现出色,但人类的创造力、判断力和沟通能力仍然无可替代。最理想的未来可能不是AI取代人类,而是AI和人类各司其职,共同创造出比单独工作更优秀的结果。这种协作关系的建立需要技术进步,更需要我们重新思考工作的意义和人类的价值。

对于每一个在技术行业工作的人来说,这项研究提供了宝贵的参考。它提醒我们既要拥抱新技术带来的便利,也要保持对人类独特价值的信心。在AI机器人越来越智能的今天,人类最重要的能力可能不是与机器竞争,而是学会如何更好地与机器协作,让技术真正服务于人类的发展和幸福。

Q&A

Q1:AI机器人和人类审查员在代码审查中的主要区别是什么?

A:AI机器人的评论比人类长很多(每行代码平均29.6个词对比4.1个词),主要专注于代码改进和错误检测,占95%以上。而人类审查员提供更多样化的反馈,包括理解确认、知识传授、测试建议等,更注重深度交流和项目背景理解。

Q2:为什么AI机器人提出的建议采纳率这么低?

A:AI机器人建议的采纳率只有16.6%,远低于人类的56.5%。主要原因包括:28.7%的建议本身错误,24%的建议虽然发现了问题但解决方案不合适,16.4%被认为不必要,还有一些是项目上下文理解不足导致的误判。

Q3:人机协作的代码审查模式效果如何?

A:研究发现最佳模式是让AI负责初步筛查和标准化检查,人类负责深度分析和最终决策。当对话以人类回复结尾时,代码被拒绝率只有0.9%-7.8%,而以AI回复结尾时拒绝率高达7.1%-25.8%,说明人类在最终决策中起关键作用。

来源:https://www.163.com/dy/article/KPC4ATC90511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

皇后大学解密:AI与程序员如何协作审查代码
科技数码
皇后大学解密:AI与程序员如何协作审查代码

当你写完一段代码,准备提交到项目中时,通常会有同事帮你检查一遍——这个过程叫做代码审查,就像文章发表前的编辑校对一样重要。不过现在情况有了变化:越来越多的AI机器人也开始参与代码审查工作,它们能自动

热心网友
03.31
摩根大通裁员2500人,AI替代潮加速金融行业变革
AI
摩根大通裁员2500人,AI替代潮加速金融行业变革

新智元报道编辑:倾倾【新智元导读】Anthropic CEO 公开表示:咨询、法律、金融入门岗位将在1-2年内被AI取代,一个企业只需1人+AI就能完成原12人团队的工作!专家疾呼:必须学会用AI重

热心网友
03.31
华为云CodeArts代码智能体公测版发布,助你高效编程
科技数码
华为云CodeArts代码智能体公测版发布,助你高效编程

3月31日,据华为云生态消息,华为云码道(CodeArts)代码智能体公测版正式发布。在政企领域,华为混合云构筑一站式、全流程、智能化软件开发平台,提供需求管理、代码托管、代码检查、编译构建、制品仓

热心网友
03.31
Meta华人实习生:独立编写代码实现AI自我进化突破
科技数码
Meta华人实习生:独立编写代码实现AI自我进化突破

henry 发自 凹非寺量子位 | 公众号 QbitAI能无限进步的「超级智能体」来了!最近,Meta研究团队的一篇题为HYPERAGENTS(超级智能体)的论文迅速刷屏。这篇论文将LSTM之父Jü

热心网友
03.31
苹果AI编程利器Anything+下架,整合AI布局成焦点
科技数码
苹果AI编程利器Anything+下架,整合AI布局成焦点

IT之家 3 月 31 日消息,科技媒体 The Information 昨日(3 月 30 日)报道,苹果近期加大整顿 AI 氛围编程(vibe coding)应用,上周以违反“自包含规则”为由,

热心网友
03.31

最新APP

你说我猜
你说我猜
休闲益智 03-31
史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29

热门推荐

崩坏星穹铁道3.4新增四星光锥怎么玩-崩坏星穹铁道3.4新增四星光锥玩法解析
游戏资讯
崩坏星穹铁道3.4新增四星光锥怎么玩-崩坏星穹铁道3.4新增四星光锥玩法解析

角色与光锥适配深度解析 为队伍挑选合适的光锥,往往能起到画龙点睛的作用。今天,我们就来深入聊聊几款功能各异的光锥,看看它们如何与特定命途的角色产生化学反应。 酣战如始 1 属性与适配角色:作为同谐命途的光锥,其核心属性集中在速度与能量恢复上。这无疑是那些专注于辅助队友、提供团队增益角色的优质选择。

热心网友
03.31
什么是加密货币对冲?如何操作?有什么优势?
web3.0
什么是加密货币对冲?如何操作?有什么优势?

什么是对冲? 加密货币市场的价格变化,向来以快速剧烈著称。上午还在上涨的资产,下午就可能面临回调。在这种高波动的环境下,交易者们自然会寻求一种方法来保护自己的资金免受冲击。这种方法就是对冲——一种旨在降低风险、提升投资组合稳定性的核心策略。简单来说,对冲的核心逻辑在于:当你持有的主要加密货币资产价值

热心网友
03.31
荣耀平板 PC 化升级计划公布,将带来 PC 交互、PC 级应用支持等特性
科技数码
荣耀平板 PC 化升级计划公布,将带来 PC 交互、PC 级应用支持等特性

荣耀平板PC化升级计划公布,将带来PC交互、PC级应用支持等特性 三月十号,荣耀的一场重磅发布会,揭开了其平板产品线战略升级的序幕。在荣耀Magic V6旗舰新品发布会后,荣耀终端股份有限公司全场景产品线的负责人,@荣耀潇哥,进一步分享了一项备受关注的“平板PC化升级计划”。 在分享中,@荣耀潇哥清

热心网友
03.31
5 分钟充好,9 分钟充饱,比亚迪闪充补上新能源转型最后一块拼图
业界动态
5 分钟充好,9 分钟充饱,比亚迪闪充补上新能源转型最后一块拼图

5 分钟充好,9 分钟充饱,比亚迪闪充补上新能源转型最后一块拼图 “没有人比我们比亚迪更懂电池。”这句在发布会上掷地有声的口号,背后是实打实的技术突破。前不久的比亚迪“闪充中国改变世界”发布会上,王传福总裁正式揭晓了第二代刀片电池与配套的闪充技术,一组数据瞬间引爆了行业: 从10%到70%电量,只需

热心网友
03.31
OPPO K15 Pro核心配置公布:明日发布,抢先了解亮点
网络安全
OPPO K15 Pro核心配置公布:明日发布,抢先了解亮点

IT之家 3 月 31 日消息,OPPO K15 Pro 系列手机已官宣将于明日 14:30 正式发布。IT之家注意到,OPPO K15 Pro 手机已现身正式,并公布了核心配置信息,IT之家附如下

热心网友
03.31