2025年11月16日,某技术博客发表文章披露,谷歌正在通过其AI Studio平台测试一款尚未正式命名的人工智能模型。测试结果显示,该模型在解读难以辨认的历史手稿方面表现优异,准确率已接近人类专家水平。
文章提到,历史学家Mark Humphries采用专门构建的基准数据集,对该模型进行了系统性评估。在测试中,模型需要处理五份极具挑战性的历史手写文档,其字符转录错误率约为1.7%。值得注意的是,这些错误主要集中在标点符号及字母大小写等细节问题,而非核心词汇内容。
进一步分析表明,如果将模糊的标点和大小写问题排除在外,该模型的字符错误率可降至约0.56%,相当于每转录200个字符才会出现一次错误。这一精度已达到专业文献转录人员的实际工作水平。
此次测试使用的手稿样本涵盖18至19世纪多种书写风格,包括字迹潦草、拼写不规范及语法结构混乱等复杂情况,充分考验了模型的适应能力。结果显示,即使在多样化的文本环境中,该人工智能仍能保持高度准确性。
尽管测试结果令人鼓舞,但Humphries也指出当前研究存在局限性。由于该模型仅通过A/B测试方式零星出现,缺乏稳定访问路径,难以开展大规模系统验证。截至目前,评估工作仅覆盖基准数据集中约10%的样本,后续仍需更全面的数据支持以确认其整体性能表现。
