OpenAI 最新研究：当前 AI 模型仍无法媲美人类程序员

首页

热心网友

转载

2026-04-28

OpenAI最新研究：当前AI模型仍无法媲美人类程序员

最近有个话题很热：OpenAI的首席执行官萨姆·奥尔特曼公开预测，到今年年底，人工智能模型就能超越“低级别”的软件工程师。这话听起来雄心勃勃，但现实可能比预想的要骨感一些。他们自家研究团队最新发布的论文，恰恰给出了一个相反的信号——哪怕是最前沿的AI模型，眼下依然难以与人类程序员比肩。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

OpenAI 最新研究：当前 AI 模型仍无法媲美人类程序员

研究人员在论文里点出了一个核心结论：即使是那些最具突破性的前沿模型，“仍然无法解决大多数”实际的编程任务。为了得出这个判断，他们专门搞了个新玩意儿：SWE-Lancer基准测试。这个测试的“题库”可不一般，它基于自由职业平台Upwork上真实存在的1400多个软件工程任务，总价值不菲。用这套接地气的考题，研究团队测试了三款热门的大型语言模型：OpenAI自家的推理模型o1、旗舰产品GPT-4o，以及Anthropic公司的Claude 3.5 Sonnet。

测试怎么考？模型表现如何？

这个新基准主要考察LLMs处理两类Upwork任务的能力：一类是具体的“个体任务”，比如修复某个bug并实施解决方案；另一类是更宏观的“管理任务”，需要模型从更高层面做出决策。测试设置还有个关键限制：所有模型都被断网了，这就杜绝了它们直接上网搜索、复制粘贴现有答案的可能性，考验的是真实的理解与生成能力。

结果怎么样？这些模型尝试的任务，在真实世界中总报酬可达数十万美元，但它们的表现只能算差强人意。模型们往往能快速处理一些表面问题，但一旦面对大型项目，需要深挖漏洞根源时，就立刻显得力不从心。这种场景是不是很熟悉？AI常常能给出一个听起来无比自信、逻辑完整的回答，可一经仔细推敲，里面却可能漏洞百出。 这就像交上来一份格式完美的报告，核心数据却算错了。

论文也承认，在速度上，这三款模型通常能“远超人类”地提交答案。但快不代表好。问题在于，它们缺乏对漏洞广泛性及其背后复杂背景的真正理解，这直接导致提供的解决方案要么是错的，要么就不够全面。

谁表现稍好？离实用还有多远？

有趣的是，在这场“内部对决”中，来自Anthropic的Claude 3.5 Sonnet表现略胜一筹，在测试中“赚取”的虚拟报酬也超过了OpenAI的o1和GPT-4o。然而，这仅仅是“矮子里面拔将军”。研究人员明确指出，即便是它，给出的答案大多数仍然是错误的。 所以结论很清晰：任何模型想要真正投入到实际编程工作中，都必须具备“高得多的可靠性”。

说到底，这篇论文传递的信息很明确：尽管前沿AI模型在处理某些细节任务时速度惊人，但就解决复杂编程问题的整体技能水平而言，它们距离人类工程师还差得很远。

话说回来，尽管大型语言模型近几年发展迅猛，未来也注定会持续进化，但就目前在软件工程领域的实际能力来看，它们远未达到取代人类的地步。不过，一个值得玩味的现象是：这似乎并没有阻止一些公司的CEO们开始行动，他们选择解雇人类程序员，转而押注于这些尚未成熟的AI模型。这个决定的风险与收益，恐怕只有时间才能给出答案了。

来源:https://www.1ai.net/29500.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：Vidu AI视频大模型，vidu.studio官网下一篇：DeepSeek-R1 成 Hugging Face 最受欢迎大模型，力压近 150 万个“对手”