7月1日,OpenAI正式推出了一个名为GeneBench-Pro的全新基准测试。该测试旨在直接评估AI模型在生物学计算任务中的实际能力,简而言之,就是检验模型在面对真实科研场景中复杂、不完整的数据时,能否做出准确的分析判断,选择适当的方法,并最终提供支持后续决策的有效结果。

传统的基准测试通常侧重于考察模型“记忆了多少知识”或“能否按固定流程完成任务”。而GeneBench-Pro则不同,它更强调实用性——让模型置身于真实的科研环境中,面对模糊、不完整甚至包含干扰信息的数据。模型需要自主判断如何分析、如何得出结论。
具体而言,该测试覆盖了基因组学、定量生物学和转化医学等多个方向,共包含129道题目,分布在10个主要领域和21个子领域,例如统计遗传学、群体遗传学、功能基因组学、蛋白质组学等。每道题目为模型提供一份接近真实科研环境的数据集,附带一段简短的实验背景说明和一个与后续决策相关的目标问题。模型需要自主进行数据探索、选择分析方法,并在过程中不断调整策略,最终给出答案。
该测试的关键设计在于:为避免传统长流程基准测试中常见的评分偏差,OpenAI采用了合成数据(Synthetic Data)来构建题目。原因在于,如果使用历史真实数据出题,往往存在多条合理的分析路径,模型即使使用错误方法也可能偶然答对。而合成数据的优势在于,OpenAI能够完全掌控底层因果结构和数据生成过程,从而更准确地判断模型是否真正理解了问题,而非投机取巧。
目前,OpenAI已在Hugging Face平台上开源了10道具有代表性的示例题目,并提供了交互式界面供外部研究人员体验。后续还将开放其中50道题目,交由Artificial Analysis进行第三方独立评测,旨在验证不同模型在该新基准下的真实表现。
