由上海人工智能实验室 OpenDataLab 团队正式推出的 ScienceMetaBench 科学文献元数据提取评测基准,致力于构建一个公平且统一的评估体系。该基准旨在为学术界与工业界提供可复现、可对比的衡量标准,从而推动元数据提取技术的持续进步。
数据集地址:https://www.php.cn/link/918d2d39616621eedbe76248d1e3abcb
测评工具代码:https://www.php.cn/link/2ab507032a57dc82c268ea84eeecab35
据了解,ScienceMetaBench 专注于评估从科学文献 PDF 中精准识别并抽取结构化元信息的能力,其覆盖了学术论文、教科书及电子书三大主流文档类型。在构建过程中,团队特别强化了对中英双语场景的支持,从文本识别、字段解析到语义对齐均实现了语种自适应,确保提取出的元数据结果与原文语言高度契合。
下图展示了从学术论文 PDF 首页中成功抽取出的元数据字段实例:

需要从论文首页准确提取以下核心字段:{
"sha256": "8d3e...f3a", // 文件级唯一哈希值,支撑数据溯源与版本管理
"doi": "10.1186/s41038-017-0090-z", // 国际数字对象标识符
"title": "Children are not little adults...", // 文献标题(保留原始大小写与标点)
"author": "Tina L. Palmieri, ...", // 作者列表,统一采用英文逗号分隔格式
"keyword": "Blood transfusion, Pediatric", // 关键词集合,同样以英文逗号分隔
"abstract": "Blood transfusion in burns larger than...", // 完整摘要文本(不含冗余符号或页眉页脚)
"pub_time": "2017" // 标准化出版年份(仅保留四位数字)
}
为了增强样本的多样性与现实挑战性,研究团队融合了多源异构PDF数据采集策略,并引入 K-Means 图像聚类方法对页面布局进行无监督分组,从而有效涵盖了从紧凑单栏到复杂多栏、包含图表/公式/多语言混排等典型困难案例。标注流程采用“大模型预标注 + 领域专家人工校验”的协同范式,并严格对标 OmniDocBench(MinerU 测评所采用的权威基准),确保标注的规范性、字段完整性与测评维度的前沿性。
源码地址:点击下载
