首页 游戏 软件 资讯 排行榜 专题
首页
AI
OpenAI 最新研究:当前 AI 模型仍无法媲美人类程序员

OpenAI 最新研究:当前 AI 模型仍无法媲美人类程序员

热心网友
13
转载
2026-04-28

OpenAI最新研究:当前AI模型仍无法媲美人类程序员

最近有个话题很热:OpenAI的首席执行官萨姆·奥尔特曼公开预测,到今年年底,人工智能模型就能超越“低级别”的软件工程师。这话听起来雄心勃勃,但现实可能比预想的要骨感一些。他们自家研究团队最新发布的论文,恰恰给出了一个相反的信号——哪怕是最前沿的AI模型,眼下依然难以与人类程序员比肩。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

OpenAI 最新研究:当前 AI 模型仍无法媲美人类程序员

研究人员在论文里点出了一个核心结论:即使是那些最具突破性的前沿模型,“仍然无法解决大多数”实际的编程任务。为了得出这个判断,他们专门搞了个新玩意儿:SWE-Lancer基准测试。这个测试的“题库”可不一般,它基于自由职业平台Upwork上真实存在的1400多个软件工程任务,总价值不菲。用这套接地气的考题,研究团队测试了三款热门的大型语言模型:OpenAI自家的推理模型o1、旗舰产品GPT-4o,以及Anthropic公司的Claude 3.5 Sonnet。

测试怎么考?模型表现如何?

这个新基准主要考察LLMs处理两类Upwork任务的能力:一类是具体的“个体任务”,比如修复某个bug并实施解决方案;另一类是更宏观的“管理任务”,需要模型从更高层面做出决策。测试设置还有个关键限制:所有模型都被断网了,这就杜绝了它们直接上网搜索、复制粘贴现有答案的可能性,考验的是真实的理解与生成能力。

结果怎么样?这些模型尝试的任务,在真实世界中总报酬可达数十万美元,但它们的表现只能算差强人意。模型们往往能快速处理一些表面问题,但一旦面对大型项目,需要深挖漏洞根源时,就立刻显得力不从心。这种场景是不是很熟悉?AI常常能给出一个听起来无比自信、逻辑完整的回答,可一经仔细推敲,里面却可能漏洞百出。 这就像交上来一份格式完美的报告,核心数据却算错了。

论文也承认,在速度上,这三款模型通常能“远超人类”地提交答案。但快不代表好。问题在于,它们缺乏对漏洞广泛性及其背后复杂背景的真正理解,这直接导致提供的解决方案要么是错的,要么就不够全面。

谁表现稍好?离实用还有多远?

有趣的是,在这场“内部对决”中,来自Anthropic的Claude 3.5 Sonnet表现略胜一筹,在测试中“赚取”的虚拟报酬也超过了OpenAI的o1和GPT-4o。然而,这仅仅是“矮子里面拔将军”。研究人员明确指出,即便是它,给出的答案大多数仍然是错误的。 所以结论很清晰:任何模型想要真正投入到实际编程工作中,都必须具备“高得多的可靠性”。

说到底,这篇论文传递的信息很明确:尽管前沿AI模型在处理某些细节任务时速度惊人,但就解决复杂编程问题的整体技能水平而言,它们距离人类工程师还差得很远。

话说回来,尽管大型语言模型近几年发展迅猛,未来也注定会持续进化,但就目前在软件工程领域的实际能力来看,它们远未达到取代人类的地步。不过,一个值得玩味的现象是:这似乎并没有阻止一些公司的CEO们开始行动,他们选择解雇人类程序员,转而押注于这些尚未成熟的AI模型。这个决定的风险与收益,恐怕只有时间才能给出答案了。

来源:https://www.1ai.net/29500.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Signlz AI : AI辅助PRD生成工具
AI
Signlz AI : AI辅助PRD生成工具

需求人群 如果你是一位产品经理或相关专业人士,正在为如何高效启动一个新项目、打磨一份专业的产品需求文档(PRD)而头疼,那么Signlz可能就是为你量身打造的工具。它核心解决的,就是帮助这个群体快速且高质量地迈出产品创新的第一步。 使用场景 那么,具体在哪些环节它能大显身手呢?最典型的,莫过于当你需

热心网友
04.28
GraphQL AI : AI开发者平台
AI
GraphQL AI : AI开发者平台

需求人群 如果你正在开发AI工具、机器人或者聊天助手,那么下面这个平台值得你特别关注。它瞄准的正是这个快速发展的开发者社区。 使用场景 具体能拿它来做什么呢?场景其实很丰富。比如,你可以用它快速搭建一个聊天机器人,来高效处理用户的那些常见问题,解放人力。艺术创作方面,它集成的图像生成模型能帮你产出风

热心网友
04.28
当Perps DEX进入下一阶段,交易者真正需要什么?
web3.0
当Perps DEX进入下一阶段,交易者真正需要什么?

2026 年 4 月,加密市场重新升温。BTC 一度触及 7 9 万美元,随后在 7 7 万美元附近震荡。随着资金回流、宏观预期变化和机构交易活跃,市场注意力再次回到 BTC 及其衍生品交易。 行情一旦回归,最先热闹起来的总是合约市场。更高的杠杆、更低的费用、更快的开仓速度,总能迅速把交易者拉回屏幕

热心网友
04.28
Vidby:字幕翻译配音服务,一款专业的AI视频翻译和配音工具
AI
Vidby:字幕翻译配音服务,一款专业的AI视频翻译和配音工具

想把你的视频内容传递给全世界的观众?语言障碍往往是最大的拦路虎。好在,现在有了专业的解决方案。Vidby,这款由瑞士Vidby AG公司打造的AI视频翻译与配音工具,正是为此而生。它能快速且精准地处理视频翻译、字幕生成和语音配音等一系列任务,帮你轻松跨越语言鸿沟。 那么,它是如何做到的呢?核心在于其

热心网友
04.28
百度:文心下一代模型 4.5 系列 6 月 30 日起开源
AI
百度:文心下一代模型 4.5 系列 6 月 30 日起开源

百度官宣文心大模型4 5系列将至,并定下开源时间表 情人节这天,国内AI领域迎来一则重磅消息。百度正式宣布,将在未来几个月内,逐步推出其文心大模型的下一代版本——4 5系列。而真正的重头戏在于,该系列模型将从今年6月30日起正式开源。这意味着,开发者与企业获得行业顶级大模型技术的门槛,将迎来一次显著

热心网友
04.28