柳叶刀250万篇医学论文审计与AI数据检测方法

时间：2026-06-01 20:27

论文造假检测，从耿同学到开源工具箱最近“耿同学”这个名字在抖音上刷了屏。最初看到他的打假视频时，确实让人心头一震：没想到论文数据还能这么“质朴无华”地造假。大数定律下末位数有均匀分布，首位数有本福特定律——这些基础的统计学常识，在论文数据编造这件事上，居然被验证得明明白白。（值得玩味的是，耿

# 论文造假检测，从耿同学到开源工具箱最近“耿同学”这个名字在抖音上刷了屏。最初看到他的打假视频时，确实让人心头一震：没想到论文数据还能这么“质朴无华”地造假。大数定律下末位数有均匀分布，首位数有本福特定律——这些基础的统计学常识，在论文数据编造这件事上，居然被验证得明明白白。（值得玩味的是，耿同学被限流后又解除了限制，至少今天还能刷到他最新曝光名字的视频。）没过几天，哥伦比亚大学的CITADEL团队在《柳叶刀》发表了一项重磅研究：用AI扫描了250万篇生物医学论文，结果发现虚假引用率正以12倍的速度爆炸式增长。这个增长曲线，刚好和AI写作工具的普及时间线高度吻合。

原本想着按《柳叶刀》通讯论文的思路，再结合耿同学视频里的方法论，自己动手做一个审核工具。结果搜了一圈发现，已经有好几个现成的开源打假工具摆在那儿了。今天就整理一份清单：从数据取证到图片查重，从末位数字分布到本福特定律，这些工具完全可以做一轮初步筛查。 ## 自动化引用验证系统哥伦比亚大学护理学院与数据科学研究所联合开发了一套自动化引用验证系统。这套系统扫描了PubMed Central开放获取子集中2023年1月至2026年2月间的约250万篇论文，涉及1.26亿条结构化参考文献。整个检测流程设计得相当严谨。系统对语料库中的每条参考文献，首先向CrossRef数据库发起查询。CrossRef维护着来自超过2万个出版商的1.5亿条学术作品元数据，包括作者姓名、期刊名称、卷号、期号和出版年份。这些维度的数据会被交叉核对，只要有一条不匹配，引用就会被标记为可疑。系统还会主动排除常见转录错误——比如DOI中的数字位置调换、作者姓名轻微拼写变体等。只有在多次验证后仍无法找到匹配记录时，引用才最终被判定为虚假。团队还对抽样的被标记引用进行了人工二次审核，由三位独立审稿人确认，以控制误报率。结果确实让人震惊。从250万篇论文中，最终确认了4046条虚假引用，涉及2810篇论文。最急剧的加速拐点出现在2024年中期——这个时间点与AI写作助手从早期采用者工具转变为全球研究人员日常使用工具的时期完全吻合。有一篇2025年发表在外科领域的开放获取肿瘤学期刊论文，30条参考文献中有18条是虚构的，虚假率高达60%。不过这套验证机制也有盲区。它主要覆盖PubMed Central的开放获取子集，对JAMA、新英格兰医学杂志、柳叶刀本体等高影响力订阅期刊的代表性不足。更关键的是，DOI级别的验证无法捕捉一种更狡猾的造假方式——嵌合引用。所谓嵌合引用，就是AI混合了多篇真实论文的元素：第一作者确实在某期刊发表过文章，卷号期号也是真实的，但这篇具体论文根本不存在。由于每个组件都可以单独验证通过，这类引用最难以被发现。团队认为，12倍的增长趋势可能来源于AI引用的三种常见幻觉类型：完全虚构引用（Phantom Citation）、嵌合引用（Chimera Citation）、损坏引用（Corrupted Citation）。 ## 耿同学方法论这个项目不是耿同学本人发布的，而是由JasonYan-Bio维护。核心假设只有一句话：自然数据具有随机性，人为编造的数据会呈现不自然的规律性。基于这个前提，项目实现了六大检测模块。 **第一个模块是末位数字检测。** 自然实验数据的末位数字，0到9的分布应该接近均匀。如果某些数字出现频率异常偏高或偏低，使用卡方检验就能判断偏离程度。人为编造数据时，人脑无法真正生成随机数，末位数字的分布往往会有明显的偏好。 **第二个模块是本福特定律检测。** 对于跨越多数量级的自然数据，首位数字为1的概率约为30.1%，而9的概率只有4.6%。如果数据严重偏离这个理论分布，就可能存在人为编造。不过这个检测有条件限制：数据必须跨多个数量级，像百分比、特定量表分数这类受人为限制的范围就不适用。 **第三个模块是GRIM测试（粒度相关均值不一致性检验）。** 它的适用场景非常具体：对于整数取值的数据，比如Likert 5点量表，给定样本量n之后，合法的小数平均值只能落在特定的有限集合内。如果论文报告的平均值在数学上根本不可能由整数样本产生，那这条数据就站不住脚。这是一种确定性检验，不依赖概率性判断。 **第四个模块是固定关系检测。** 两组独立实验的数据之间不应该存在恒定的差值、比值或线性关系。如果发现两组数据每一行的差值都精确等于同一个常数，或者在散点图上完美落在一条直线上，那就不是巧合能解释的了。 **第五个模块是小数字一致性检测。** 实验测量数据的小数点后数字应该具有随机性。如果多组数据的小数位后数字全部以0或5结尾，暗示存在人为修约甚至编造。 **第六个模块是图像重复检测。** 基于感知哈希和SSIM结构相似度算法，扫描论文中的图片是否存在重复使用或篡改。相似度超过0.85的阈值即被标记，典型应用包括Western blot条带重复使用、流式细胞图复用等。综合评估引擎会把六个模块的结果汇总，生成一个0到100分的风险评分。26到50分是中风险，存在可疑模式，建议人工复核。51到75分是高风险，多项检测异常。76到100分是极高风险，出现系统性异常，高度疑似数据造假。输出内容包括异常检测的详细报告、风险评分、分布直方图和偏离热力图等可视化图表，以及建议进一步核查的具体数据点。工具覆盖生物医学、化学、物理材料、社会科学和临床医学等多个领域，会根据领域自动选择适用的检测策略。 ## 从PDF到证据图片的完整审计链相比于geng-skills更偏重数值维度的检测，`research-integrity-auditor`则是一个用于论文科研诚信审查的技能，更适合做发布之前的检验。它可以辅助审查论文PDF、图表、实验数据和源数据表格中的异常线索：通过MinerU转换论文，自动构建可引用的证据台账，运行数字取证检查，并为高风险表格生成确定性的证据标注图。它的目标不是直接“判定造假”，而是帮助你整理可复核的异常证据链：每条发现都应包含页码、图表编号、原始值、图片路径、Markdown行号或内容块位置，并明确说明可能的善意解释和人工复核建议。项目的设计思路是把论文审查变成一个可复现的工程流程，而不是依赖个人的主观判断。它明确了一条红线：不直接判定论文造假，不替代机构调查。每条发现都是一个标记，附带位置信息、原始值和可能的善意解释，最终由人工来复核。整个流程分为多个步骤。 **第一步是用MinerU将论文PDF或公开论文URL转换为结构化数据。** MinerU是一种基于AI的文档OCR解析服务，能把PDF中的文本、表格、图表和图片全部提取出来，生成Markdown格式的结构化全文。这一步需要配置MinerU API Token。 **第二步是构建证据台账。** 脚本`build_evidence_ledger.py`从MinerU的输出中自动提取并索引所有证据单元，包括文本段落、表格数据、图表图片、标题信息、页码位置、边界框坐标、Markdown行号、内容块定位，以及表格中每一行每一列的原始值。这个台账为后续所有的取证分析提供了精确的溯源能力。 **第三步是运行数值取证。** 脚本`numeric_forensics.py`对证据台账中的全部数值数据运行一系列确定性检查：精确重复值、重复的小数位、末位数字分布、取整度、本福特定律适用性分析以及简单的列间关系提示。默认从表格中提取数据，避免参考文献年份等信息污染统计结果。 **第四步是多Agent审查。** 项目定义了九个专门审查角色，当子Agent可用时可以并行执行。Image Forensics Agent负责识别相同底图不同标签、相同实验主体不同信号等图片问题。Data Duplication Agent检测重复行列、固定偏移和轻微修改的副本。Digit Pattern Agent分析末位数字集中度、过于整齐的小数和可疑取整。Math Consistency Agent反推百分比与计数、检查不可能的四舍五入和固定公式关系。Distribution Agent比较数值曲线的形状和噪声纹理。Domain Sanity Agent从领域知识角度核查测量精度和实验合理性。Defense Agent为每个异常点构建最强的良性解释。Judge Agent合并证据、删除弱信号重复项、分配风险等级并生成最终报告。 **第五步是生成标注证据图片。** 当源数据审计JSON中包含固定差值发现或末位异常发现时，可以通过`render_evidence_tables.py`从原始XLSX文件生成带标注的PNG证据图片，每张图片都保留源文件、工作表名称、行列范围和风险备注等元信息。最终报告以风险等级和最强证据链开头，然后按从强到弱的顺序列出所有发现，每条发现包含证据内容、使用的方法、为何可疑、可能的良性解释、压力测试结果、置信度和建议的人工验证步骤。结尾单独列出局限性，包括MinerU提取质量、PDF图片分辨率、样本量限制等。 ## paperconan：数据完整性检测工具这个项目的名字比较有意思：“论文柯南”。只需要把论文的supplementary source data文件夹指给它——就是那一堆xlsx、csv、tsv文件——它会自动扫描并输出两个东西：一个是`scan.json`，包含所有结构化命中记录；另一个是`report.html`，一个自包含的可交互法证报告。 HTML报告的交互性设计是一个亮点。顶部有文件数、工作表数和高、中、低严重度命中数的摘要统计。左侧边栏可以按严重度、检测器类型或文件名勾选过滤，还支持关键字搜索。主区域中每条发现是一个可折叠卡片，直接嵌入来源表格的片段，并且用黄色底色高亮可疑列，用红色边框标记可疑行。如果命中项涉及末位数字卡方检验异常，卡片内会自带0到9的内联直方图，读者不需要离开页面就能直观看到分布偏差。 paperconan内置了13个检测器。 `identical_column`检测同一区块内两列是否完全一致。`constant_offset`检测同一区块内两列是否存在固定偏移，比如所有行的B列都恰好等于A列加2.13。`constant_ratio`和`exact_linear`分别检测固定比例和精确线性关系。`arithmetic_progression`检测整列是否构成完美等差数列——一组对照组的Y值如果是完美的1、2、3、4整数序列，自然测量不可能产生这种结果。在行内异常方面，`within_col_value_duplication`检测单列内同一个6位以上小数值是否反复出现。比如0.208975这个数字在声称独立的实验中间出现了8次，概率实在太低。`within_col_decimal_repetition`检查同组N个数字的小数尾两位是否高度重复。`rounded_to_half_or_int`检测整列数据是否都被舍入到固定的刻度上——自然测量不会全部精确落在某个网格。`identical_after_rounding`则是发现两列数值在舍掉末位后完全一致的情况。跨表检测方面，`many_equal_pairs`检测两个本应独立的列中是否有超过40%的行完全相同。`cross_sheet_position_identical`检查两张工作表中同行同列位置的数值是否完全一样。`last_digit_chi_square`对整个工作表的末位数字做卡方检验，当p值低于1e-6时标记异常。`repeated_two_decimal_endings`专门检查末两位是否高度集中。每条命中记录都带有严重度标记、涉及的文件名、工作表名、区块行号范围和具体的规则描述字符串，方便人工复核时直接定位到原始数据。 paperconan还有一个自动抓取功能。通过`paperconan fetch`命令，输入论文DOI就能列出候选数据集，支持直接从Zenodo和Figshare下载。项目还提供了一个agent skill入口，可以作为Claude Code或Codex等AI智能体的插件调用。 ## 统计与机器学习的融合检测这个项目把本福特定律的统计特性和单类支持向量机（OCSVM）的异常检测能力做了融合。项目已经通过了大学生研究训练计划的国家级初评，说明在学术质量上有一定的背书。核心检测策略分两条线。本福特法则这条线提供统计学的理论依据和可解释性，当数据的首位数字分布偏离理论的对数规律时，就给出一个明确的偏离信号。OCSVM这条线则是一种单类分类算法，只需要用正常数据训练，就能识别出与训练分布显著不同的异常样本。这个项目的独特之处就是引入了单类分类算法。单类支持向量机是一种用于异常检测和异常值识别的机器学习算法，是一种无监督学习算法，专门设计用于处理只有一个类别的训练数据的情况。它能在不需要训练的情况下，找到论文数据中的异常数据，而不是仅仅依据统计学的理论。 ## 整合思路：构建完整的论文数据审计工具综合以上四个开源项目的方法论，完全可以构建一个完整的论文数据审计工具。 **第一步是数据提取层。** 从论文PDF、补充材料的CSV/XLSX/TSV文件，以及论文中嵌入的图片中抽取所有可分析的原始数据。这一步目前最好的方案是MinerU OCR配合paperconan的fetch机制，前者做文档解析，后者拉取公开数据。 **第二步是多维度检测引擎。** 目前可以整合的检测维度包括十三个：数值维度有末位数字卡方分布检测、本福特定律首位分布检测、GRIM平均值兼容性检验、小数字一致性检测、取整度检测、固定差值固定比例关系检测、精确线性关系检测、等差数列检测、列内复现小数检测；跨表维度有同行同列数值一致性检测、列间高比例相同行检测；图像维度有感知哈希和SSIM图片相似度检测、多Agent图片身份与标签冲突审查；机器学习维度有OCSVM一类支持向量机异常检测。每条检测命中的异常点被赋予严重度等级，并记录溯源信息，包括来源文件、工作表名、行列位置、原始值以及可能的高亮渲染图片。这些信息汇总到一个结构化的证据台账中，可以按严重度、检测器类型或文件名过滤和搜索。 **第三步是风险评估。** 看证据之间的交叉验证关系。如果只有某一个维度报警，可能是仪器校准或数据录入的问题。但如果图片身份冲突同时叠加了机械数值模式和反推公式生成痕迹，且良性解释无法覆盖所有证据线，风险评分会显著升高。geng-skills的0到100分四级风险等级是比较成熟的量化方案，可以在此基础上扩展。这样，把哥大的检测流程，结合四个开源项目的检测工具和方法，按上面的设计方案，综合成一个自动化线索发现的工具。