OpenAI推出GeneBench-Pro基准测试评估AI模型生物学计算能力

时间：2026-07-02 10:46

7月1日，OpenAI正式推出了一个名为GeneBench-Pro的全新基准测试。该测试旨在直接评估AI模型在生物学计算任务中的实际能力，简而言之，就是检验模型在面对真实科研场景中复杂、不完整的数据时，能否做出准确的分析判断，选择适当的方法，并最终提供支持后续决策的有效结果。传统的基准测试通常侧重

7月1日，OpenAI正式推出了一个名为GeneBench-Pro的全新基准测试。该测试旨在直接评估AI模型在生物学计算任务中的实际能力，简而言之，就是检验模型在面对真实科研场景中复杂、不完整的数据时，能否做出准确的分析判断，选择适当的方法，并最终提供支持后续决策的有效结果。

OpenAI 推出 GeneBench-Pro 基准测试，用于评估 AI 模型生物学计算能力

传统的基准测试通常侧重于考察模型“记忆了多少知识”或“能否按固定流程完成任务”。而GeneBench-Pro则不同，它更强调实用性——让模型置身于真实的科研环境中，面对模糊、不完整甚至包含干扰信息的数据。模型需要自主判断如何分析、如何得出结论。

具体而言，该测试覆盖了基因组学、定量生物学和转化医学等多个方向，共包含129道题目，分布在10个主要领域和21个子领域，例如统计遗传学、群体遗传学、功能基因组学、蛋白质组学等。每道题目为模型提供一份接近真实科研环境的数据集，附带一段简短的实验背景说明和一个与后续决策相关的目标问题。模型需要自主进行数据探索、选择分析方法，并在过程中不断调整策略，最终给出答案。

该测试的关键设计在于：为避免传统长流程基准测试中常见的评分偏差，OpenAI采用了合成数据（Synthetic Data）来构建题目。原因在于，如果使用历史真实数据出题，往往存在多条合理的分析路径，模型即使使用错误方法也可能偶然答对。而合成数据的优势在于，OpenAI能够完全掌控底层因果结构和数据生成过程，从而更准确地判断模型是否真正理解了问题，而非投机取巧。

目前，OpenAI已在Hugging Face平台上开源了10道具有代表性的示例题目，并提供了交互式界面供外部研究人员体验。后续还将开放其中50道题目，交由Artificial Analysis进行第三方独立评测，旨在验证不同模型在该新基准下的真实表现。