游乐游手机版
首页/AI热点日报/热点详情

OpenAI发布GeneBench-Pro基准测试提升AI生物学分析能力

类型:热点整理2026-07-03
生物科技领域日新月异,然而面对海量、复杂且常常残缺不全的实验数据,研究人员往往感到力不从心。传统分析工具在理想条件下表现尚可,但一旦遭遇真实科研中的“一团乱麻”——数据不完整、背景信息模糊、各类干扰并存——就容易失灵。如何破局?OpenAI 近日推出了一套全新的基准测试——GeneBench-Pro

生物科技领域日新月异,然而面对海量、复杂且常常残缺不全的实验数据,研究人员往往感到力不从心。传统分析工具在理想条件下表现尚可,但一旦遭遇真实科研中的“一团乱麻”——数据不完整、背景信息模糊、各类干扰并存——就容易失灵。如何破局?OpenAI 近日推出了一套全新的基准测试——GeneBench-Pro,其核心目标很明确:检验人工智能是否能够像真正的科研人员一样,在混乱中理清头绪,做出可靠判断。

GeneBench-Pro 与以往的基准测试截然不同。传统测试更像是在考察“记忆力”与“流程熟练度”:提供的数据规整统一,任务路径固定,模型只需按部就班就能获得高分。而 GeneBench-Pro 则反其道而行之,特意构建出“模糊、不完整、带有干扰”的数据环境,让模型自主探索、分析并纠正偏差。简而言之,就是要看它在真实的科研场景中,能否经得起“脏数据”的考验。

image.png

这套测试的覆盖面相当广泛,涵盖基因组学、定量生物学和转化医学三大领域,共计 129 道题目,并进一步深入到统计遗传学、群体遗传学、功能基因组学、蛋白质组学等子方向。每道题均为模型提供一组贴近真实实验的数据集,搭配简洁的背景说明与具体问题,要求模型自主选择分析方法、调整策略,最终给出结论——整个过程本质上就是一次科研模拟。

值得关注的是,OpenAI 在设计时特意采用了合成数据。这一做法能有效规避传统长流程测试中常见的评分偏差——由于数据生成过程可被完全控制,模型究竟是真正理解了问题,还是依靠“猜测”或“走捷径”答对,一眼便能分辨。相比之下,许多传统测试往往混淆了“真正理解”与“蒙对答案”,导致分数水分较大。

目前,OpenAI 已在 Hugging Face 平台开源了 10 道具有代表性的示例题,外部研究人员可通过交互界面直接上手体验。按计划,后续还将把其中 50 道题交给 Artificial Analysis 进行独立评测,届时不同模型在该基准上的真实水平将可公开比较。

来源:https://news.aibase.com/zh/news/29315

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。