首页 游戏 软件 资讯 排行榜 专题
首页
手机教程
惊爆!DeepSeek vs. OpenAI,基准测试对决震撼发布,谁更胜一筹?

惊爆!DeepSeek vs. OpenAI,基准测试对决震撼发布,谁更胜一筹?

热心网友
70
转载
2025-04-22

大家好,欢迎来到程序视点!我是小二哥。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

前言:AI 模型正在迅速发展,DeepSeek-R1 作为 OpenAI 的重要竞争对手正在引起关注。究竟谁更胜一筹呢?

惊爆!DeepSeek vs. OpenAI,基准测试对决震撼发布,谁更胜一筹?这些模型对 Kotlin 的理解程度如何呢?他们能否生成可靠的代码、解释复杂的概念并帮助我们进行友好的调试呢?

研究团队使用 KotlinHumanEval 和专为 Kotlin 设计的新基准测试,测试了最新的 AI 模型,包括 DeepSeek-R1、OpenAI o1 和 OpenAI o3-mini。

团队研究了这些 AI 模型的整体表现,根据结果对它们进行了排名,并研究了 DeepSeek 对实际 Kotlin 问题的一些答案,以便让我们更清楚地了解这些模型的功能和限制。

使用 AI 模型对 Kotlin 进行基准测试:KotlinHumanEval 基准测试长期以来,评估模型的一个关键指标是它们在 OpenAI 的 HumanEval 基准测试中的性能,该基准测试测试模型从文档字符串生成函数并通过单元测试的能力。

去年,JetBrains 推出了 KotlinHumanEval——这是一个针对 Kotlin 的相同测试基准。

使用 KotlinHumanEval,使得该数据集的分数有了显著提高。这说明:专业集成的AI编程工具比原生的AI模型在代码编程上更加有针对性!

领先的 OpenAI 模型实现了开创性的 91% 成功率,其他模型紧随其后。即使是开源的 DeepSeek-R1 也可以完成这个基准测试中的大部分任务,如下所示。

惊爆!DeepSeek vs. OpenAI,基准测试对决震撼发布,谁更胜一筹?新兴基准测试:McEvalMcEval 是一个多语言基准测试,涵盖 40 种编程语言,包括 Kotlin。同样的,还有M2rc-Eval。

虽然之前的所有基准测试都主要测试模型生成代码的能力,但与之 LLMs 的交互范围不止于此。

因此,官方团队在测试基准中,不能只考虑代码生成能力。

根据用户使用习惯研究,继代码生成能力后, AI 工具最流行的用途之一是解释,例如用于错误修复和了解特定代码的作用。但是,现有的基准并不能完全衡量模型对 Kotlin 相关问题的回答程度。

怎么办呢?

Kotlin_QA基准测试(专属测试基准):为了解决上面提到的差距,团队提出了新的基准—Kotlin_QA。

团队收集了 47 个问题,这些问题由官方的开发技术推广工程师准备,或由 Kotlin 用户在 Kotlin 公共 Slack 中分享的 TOP 问题。

对于以上每个点,官方的 Kotlin 专家都提供了答案。然后,对于每个问题,研究团队要求不同的模型来回答。以下是来自 Slack 的一个示例问题:

您可以先尝试回答,然后将您的回答与您最喜欢的 LLM 回答进行比较。欢迎在评论中分享您的结果。

评估 LLMs' 答案:从不同的 LLMs 收集了答案后,下一个挑战就是评估它们的质量。

为此,团队使用了 LLM-as-a-judge 方法,要求潜在的评委模型将回答与专家答案进行比较,并从 1 到 10 分进行评分。

由于不同的 LLMs 评委模型有着不一致的评估,因此团队根据以下因素精心挑选了裁判模型:

惊爆!DeepSeek vs. OpenAI,基准测试对决震撼发布,谁更胜一筹?测试表明,GPT-4o(版本 08.06.2024)是最可靠的判断模型(评委模型)。原因是:它与人工评估紧密匹配,并有效地识别了低质量的答案。

Kotlin_QA 排行榜:有了评判模型,现在用它来评估 LLMs 对收集到的问题的不同回答。以下是他们的排名:

惊爆!DeepSeek vs. OpenAI,基准测试对决震撼发布,谁更胜一筹?DeepSeek-R1 表现最佳。

OpenAI 的最新模型(包括 o3-mini、o1、o1-preview 和 GPT-4o)紧随其后,取得了强劲的成绩。

Thropic 的 Claude 3.5 系列处于中等水平。

谷歌的 Gemini 型号次之,Gemini 2.0 Flash 的表现优于其他版本。

由于 DeepSeek-R1 的得分高于 OpenAI o1,而 Claude 3.5 Haiku 的表现优于 Gemini 1.5 Pro,因此推理能力更好的新模型似乎在 Kotlin 相关问题上的表现往往更好。

然而,虽然 DeepSeek-R1 的准确性很高,但它目前比 OpenAI 模型慢得多,因此对于实时使用来说不太实用。

(DeepSeek加油~~国产之AI光,咱们把速度顶上去!!)

目前,我们已经确定,这些 AI 模型非常能够讨论 Kotlin 代码。

同时,官方还通过查看性能最好的模型 DeepSeek-R1 的一些响应来检查它们的实际含义。(这一节涉及 AI 编程代码相关的内容,限于篇幅,请大家查看此条文章:模型响应示例)

来源:https://www.php.cn/faq/1286066.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

关于何时IPO,OpenAI内部现分歧:Altman希望四季度,而CFO认为尚未准备就绪
科技数码
关于何时IPO,OpenAI内部现分歧:Altman希望四季度,而CFO认为尚未准备就绪

OpenAI在激进扩张路线与财务审慎之间的内部张力正浮出水面。据The Information报道,首席执行官Sam Altman私下表示希望最早于今年第四季度完成IPO,而首席财务官Sarah F

热心网友
04.07
微软发布三款自研大模型:一边安抚OpenAI,一边打出“骨折价”!
业界动态
微软发布三款自研大模型:一边安抚OpenAI,一边打出“骨折价”!

4月3日消息,美国时间周四,微软旗下研究部门Microsoft AI宣布推出三款基础人工智能模型,全面覆盖文本、语音及图像生成领域。此举表明,微软在维持与OpenAI深度合作的同时,正持续构建自主的

热心网友
04.07
1年多暴涨30倍,美国大模型巨头年化营收首超OpenAI
科技数码
1年多暴涨30倍,美国大模型巨头年化营收首超OpenAI

北京时间4月7日,美国大模型头部公司Anthropic对外公布,公司年化收入(ARR)超过300亿美元,较2025年底的90亿美元大幅增长,Claude需求持续加速,已超过行业披露的OpenAI年化

热心网友
04.07
博通+谷歌打出TPU组合拳:3.5GW算力喂饱Anthropic
科技数码
博通+谷歌打出TPU组合拳:3.5GW算力喂饱Anthropic

快科技4月7日消息,据博通当地时间(4月6日)向美国证券交易委员会(SEC)提交的监管文件披露,该公司已与谷歌达成一项长期协议,将为谷歌生产未来版本的定制人工智能芯片。根据协议内容,博通将为谷歌未来

热心网友
04.07
科技史上最贵的饭局:扎克伯格痛失DeepMind始末
AI
科技史上最贵的饭局:扎克伯格痛失DeepMind始末

编辑|杨文又到了八卦时间。最近,著名记者、作家塞巴斯蒂安・马拉比出了本新书,名叫《无限机器:德米斯・哈萨比斯、DeepMind 与超级智能的探索》。书中,他披露了一段扎克伯格与 DeepMind 失

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

美国SEC主席Paul Atkins证实:加密货币安全港提案已送交白宫审查
web3.0
美国SEC主席Paul Atkins证实:加密货币安全港提案已送交白宫审查

加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这

热心网友
04.08
微策略Strategy报告:第一季录得144.6亿美元浮亏 再斥资约3.3亿美元买进4871枚比特币
web3.0
微策略Strategy报告:第一季录得144.6亿美元浮亏 再斥资约3.3亿美元买进4871枚比特币

微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿

热心网友
04.08
稳定币发行商Tether再扩Web3版图!Paolo Ardoino:正开发去中心化搜索引擎Hypersearch
web3.0
稳定币发行商Tether再扩Web3版图!Paolo Ardoino:正开发去中心化搜索引擎Hypersearch

稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D

热心网友
04.08
Base链首个原生DeFi借贷协议Seamless Protocol倒闭 将于2026年6月30日下线
web3.0
Base链首个原生DeFi借贷协议Seamless Protocol倒闭 将于2026年6月30日下线

基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一

热心网友
04.08
PAAL代币如何参与治理?社区投票能决定哪些事项?
web3.0
PAAL代币如何参与治理?社区投票能决定哪些事项?

PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票

热心网友
04.08