首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
阿里千问3.7编程能力全球第二仅次于Claude

阿里千问3.7编程能力全球第二仅次于Claude

热心网友
35
转载
2026-05-27

5月26日凌晨,全球权威的第三方编程能力盲测榜单Code Arena公布了最新排名。阿里云最新发布的旗舰模型Qwen3.7-Max以1541分的优异成绩,一举超越了GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6等众多强劲对手,在全球大模型厂商中位列第二,仅次于Claude系列。这一里程碑式的成就表明,在代码生成与理解这一核心AI赛道上,千问3.7-Max已成功跻身全球顶尖行列。

图说:Code Arena最新榜单显示,阿里凭借Qwen3.7-Max位列全球第二

编程能力已成为评估大模型智能水平的关键指标。Code Arena作为知名大模型盲测平台LMArena旗下最具公信力的榜单之一,其评测机制与传统基准测试大不相同。它不考核孤立的代码片段或经典算法题,而是由真实开发者出题,要求模型从零开始构建一个完整、可交互的Web应用程序。最终,由用户对匿名模型的生成效果进行两两盲测投票,综合得出排名。这种高度贴近“实战”的评测方式,使Code Arena被广泛视为目前全球最具参考价值的AI编程能力排行榜。

经过全球开发者基于真实项目体验的盲测投票,千问3.7模型的编程能力稳居前四,打破了此前由Claude-Opus-4.7和4.6长期主导的竞争格局。尤为突出的是,Qwen3.7-Max是目前榜单中唯一突破1540分大关的国产大模型,展现了国产AI技术的强劲实力。

此次取得突破的Qwen3.7-Max,是专为智能体(Agent)场景深度优化的模型。它在代码编程、智能体协作、长程复杂任务规划与执行等核心能力上实现了显著跃升。据官方披露,该模型能在数小时内独立完成通常需要专业团队两周时间的复杂项目,实现端到端的全流程交付,这将极大推动企业级办公自动化与生产力变革。其能力边界甚至拓展至更极致的场景:可持续运行长达35小时,累计进行超1000次工具调用,以完成如自我编程优化芯片内核这类高度复杂的超长程任务。

模型发布后,迅速在全球开发者社区与业界引发热烈反响。众多独立开发者、AI创作者及企业用户第一时间在社交媒体分享了测评体验。普遍反馈认为,其“长程自主执行与复杂问题解决能力令人印象深刻”,堪称“真正能闭环完成任务的大模型智能体基座”。有AI研究机构在相同提示词下对Qwen3.7-Max、Claude-4.7与GPT-5.5进行了横向对比,结果显示千问3.7相比其上一代模型性能提升幅度最大,同时在推理成本上更具优势。在代码生成速度与输出质量这两个关键维度上,相较其他主流模型也展现出明显的竞争力。

来源:阿里云。

来源:https://www.bestblogs.dev/article/60d3d012?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Claude Opus 47模型实现98%超高命中率
AI教程
Claude Opus 47模型实现98%超高命中率

不得不说,Anthropic的Claude在工程实践上的表现,确实令人印象深刻。 最近,Anthropic与SpaceX合作,将Claude Code用户的五小时配额直接翻倍。这一举动在社区里引起了不小的讨论,毕竟如此“大方”的调整并不常见。这也让人好奇,这翻倍后的五小时,到底对应着多少实际的算力资

热心网友
05.27
Claude破解80年数学难题 断网解题推翻Erdős猜想
AI资讯
Claude破解80年数学难题 断网解题推翻Erdős猜想

AI模型Mythos独立推翻了埃尔德什悬置80年的单位距离猜想。其证明路径比OpenAI的125页方案更简洁,核心在于用高维数域的整数环替代高斯整数,突破了原猜想依赖的有限方向限制。同一周内,多家机构相继宣布攻克同类难题,标志着AI在数学研究领域取得实质性突破。

热心网友
05.27
GPT-5.5超越Claude登顶AI编码榜 旧榜单还准吗
AI资讯
GPT-5.5超越Claude登顶AI编码榜 旧榜单还准吗

【导读】一个宣称实现“零污染”的全新编程基准测试DeepSWE,凭借其113道原创题目,揭示了传统编程能力排行榜单的潜在缺陷。 在代码能力评测领域,一把全新的标尺已经落下。 Datacurve公司近日发布了名为DeepSWE的新基准。其联合创始人兼首席执行官Serena Ge在社交平台X上明确指出,

热心网友
05.27
阿里千问3.7编程能力全球第二仅次于Claude
AI资讯
阿里千问3.7编程能力全球第二仅次于Claude

阿里Qwen3 7-Max在CodeArena编程榜单以1541分位列全球第二,仅次于Claude系列。该榜单通过实战PK评测,公信力强。模型专为智能体设计,在编程、长程任务等方面表现突出,能独立高效完成复杂项目,显著提升生产力,且推理成本低、生成质量高。

热心网友
05.27
得物财务数仓如何应用Claude AI Coding实战指南
AI资讯
得物财务数仓如何应用Claude AI Coding实战指南

财务数仓因跨域复杂、准确性要求高而面临挑战。引入AI大模型作为“超级助手”,可将其推理能力融入需求理解、代码编写、质量测试及文档沉淀全流程,替代重复性工作并减少低级错误。在标准化建模、SQL开发、测试及文档转换等场景中,通过人机协作显著提升交付质量与效率。未来将深化AI应用,推动工。

热心网友
05.27

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

NeuroStream视觉数据底座实测报告发布性能与应用解析
科技数码
NeuroStream视觉数据底座实测报告发布性能与应用解析

随着人工智能大模型与机器视觉技术的深度融合与产业升级,一个根本性的挑战愈发关键:底层视觉数据基础设施的能效水平,直接决定了上层AI应用的成本边界与识别精度的上限。近期,Robo ai (NASDAQ: AIIO) 旗下专注于AI基础设施的Neurovia AI,在第九届国际安全与国家风险防范展(IS

热心网友
05.27
安全出币技巧指南:掌握高效交易与资金保障的关键
web3.0
安全出币技巧指南:掌握高效交易与资金保障的关键

数字货币成功变现需掌握关键技巧:理解市场动态与主流币种联动,选择安全高流动性平台,制定明确风险目标和交易策略,严格执行止损与分散投资。市场持续变化,保持学习与适应能力是长期稳健交易的基础。

热心网友
05.27
华硕电竞显示器618选购指南 高性价比双子星推荐
科技数码
华硕电竞显示器618选购指南 高性价比双子星推荐

618购物节是电竞玩家升级装备的良机。华硕TUFGaming系列的战杀27与小金刚显示器凭借FastIPS面板、高刷新率、精准色彩及丰富电竞功能,以高性价比满足不同玩家对帧率与画质的追求,成为热门选择。

热心网友
05.27
2026年二战飞行游戏推荐:空战模拟与对战佳作盘点
游戏资讯
2026年二战飞行游戏推荐:空战模拟与对战佳作盘点

移动端二战空战游戏以机械浪漫与硬核操作吸引玩家。多款作品各具特色:或精细还原战机与基地经营,或重现太平洋战场任务,或融合弹幕射击与昼夜战术,或侧重战机收集养成,或提供割草式爽快体验。它们以历史氛围带玩家重返决定历史的天空。

热心网友
05.27
和平精英安V收车币如何革新游戏经济与玩家交易生态
web3.0
和平精英安V收车币如何革新游戏经济与玩家交易生态

《和平精英》中,“安V收车币”作为一种新兴交易方式,为玩家获取稀有车辆皮肤提供了安全便捷的渠道。它满足了玩家个性化需求,提升了游戏体验与沉浸感。参与交易需选择正规平台,合理规划消费并遵守官方规定,以保障自身权益。这一模式活跃了游戏经济,丰富了玩家的资源选择。

热心网友
05.27