OpenAI发布GeneBench-Pro基准测试提升AI生物学分析能力_AI热点日报

OpenAI发布GeneBench-Pro基准测试提升AI生物学分析能力

类型：热点整理2026-07-03

生物科技领域日新月异，然而面对海量、复杂且常常残缺不全的实验数据，研究人员往往感到力不从心。传统分析工具在理想条件下表现尚可，但一旦遭遇真实科研中的“一团乱麻”——数据不完整、背景信息模糊、各类干扰并存——就容易失灵。如何破局？OpenAI 近日推出了一套全新的基准测试——GeneBench-Pro

生物科技领域日新月异，然而面对海量、复杂且常常残缺不全的实验数据，研究人员往往感到力不从心。传统分析工具在理想条件下表现尚可，但一旦遭遇真实科研中的“一团乱麻”——数据不完整、背景信息模糊、各类干扰并存——就容易失灵。如何破局？OpenAI 近日推出了一套全新的基准测试——GeneBench-Pro，其核心目标很明确：检验人工智能是否能够像真正的科研人员一样，在混乱中理清头绪，做出可靠判断。

GeneBench-Pro 与以往的基准测试截然不同。传统测试更像是在考察“记忆力”与“流程熟练度”：提供的数据规整统一，任务路径固定，模型只需按部就班就能获得高分。而 GeneBench-Pro 则反其道而行之，特意构建出“模糊、不完整、带有干扰”的数据环境，让模型自主探索、分析并纠正偏差。简而言之，就是要看它在真实的科研场景中，能否经得起“脏数据”的考验。

这套测试的覆盖面相当广泛，涵盖基因组学、定量生物学和转化医学三大领域，共计 129 道题目，并进一步深入到统计遗传学、群体遗传学、功能基因组学、蛋白质组学等子方向。每道题均为模型提供一组贴近真实实验的数据集，搭配简洁的背景说明与具体问题，要求模型自主选择分析方法、调整策略，最终给出结论——整个过程本质上就是一次科研模拟。

值得关注的是，OpenAI 在设计时特意采用了合成数据。这一做法能有效规避传统长流程测试中常见的评分偏差——由于数据生成过程可被完全控制，模型究竟是真正理解了问题，还是依靠“猜测”或“走捷径”答对，一眼便能分辨。相比之下，许多传统测试往往混淆了“真正理解”与“蒙对答案”，导致分数水分较大。

目前，OpenAI 已在 Hugging Face 平台开源了 10 道具有代表性的示例题，外部研究人员可通过交互界面直接上手体验。按计划，后续还将把其中 50 道题交给 Artificial Analysis 进行独立评测，届时不同模型在该基准上的真实水平将可公开比较。

来源：https://news.aibase.com/zh/news/29315

OpenAI

延伸阅读

补充最近整理过的热点入口。

OpenAI发布GeneBench-Pro基准测试提升AI生物学分析能力

相关热点

延伸阅读