5月18日,由腾讯混元大模型、SSV数字文化实验室、SSV技术架构部,携手安阳师范学院甲骨文信息处理教育部重点实验室、中国科学院信息工程研究所及南开大学共同组成的联合研究团队,正式发布了业界首个系统覆盖汉字“七体之变”完整演化脉络的古文字识别评测基准——Chronicles-OCR。该基准的发布,旨在精准评估当前前沿的多模态大语言模型在面对跨越三千年的汉字视觉形态剧烈变迁时,其核心的视觉感知与理解能力究竟处于何种水平。这不仅是一次关键的技术能力评测,更是推动数字人文与文化遗产数字化领域底层核心技术突破的重要里程碑。

基准构建:如何为三千年的汉字演化设计“考题”?
构建有效的评测基准,首要任务是准备高质量的“考题”。Chronicles-OCR数据集由古文字学与计算机视觉领域的专家进行了严谨的多层级交叉标注,共包含2800张经过严格平衡的高质量古文字图像。其核心创新在于“针对性平衡”与“阶段自适应”。项目团队针对古早字体(如甲骨文、金文、篆书)与成熟字体(隶书、楷书、行书、草书)在形态、载体、版式上的巨大差异,专门设计了与之相适应的标注范式。简而言之,即为汉字演变的不同历史阶段“量身定制”了科学、公平的评测标准。
基于此,该基准系统性地设立了四大核心评测任务:跨时代字符定位检测、细粒度古文字形识别、古文序列转写以及字体时代分类。这套组合任务的设计目标,在于实现对模型“视觉感知能力”与“语义推理能力”的解耦与综合评价,从而清晰洞察模型究竟是依赖“形状匹配”还是真正实现了“形义理解”。
评测结果:主流大模型在古文字识别上遭遇显著挑战
基准对包括GPT-5、Gemini 3.1 Pro、Claude Opus 4.7在内的28个国际主流大型多模态模型进行了全面评测,结果揭示了当前行业顶尖模型在古文字这一垂直领域存在令人意外的能力短板。
首先,在古早字体(如甲骨文)的字符检测任务中,由于字形与现代汉字差异巨大且完全缺乏规整版式先验,端到端的检测任务让几乎所有主流模型表现接近“失效”。这好比让一个只熟悉现代印刷体的人直接辨认狂草书法,连单个文字的边界都难以准确界定。
其次,在最具挑战的细粒度单字识别任务中,所有参评模型的最高识别准确率仅为27.1%。这意味着,即使模型大致定位了文字区域,也极有可能认错具体的字形。更为深入的发现来自字体分类任务:模型的表现分析表明,它们往往过度依赖载体材料的背景纹理(如龟甲裂纹、青铜器锈蚀)进行判断,而非聚焦于文字笔画本身的微观结构特征。这暴露出现有模型存在依赖表面纹理噪声而非本质形态特征的认知偏差。
此外,一个反直觉的发现是:在完成上述古文字任务时,开启模型的复杂推理(Reasoning)模式反而会放大其视觉感知的不确定性,导致整体性能下降。这充分说明,当基础的视觉感知能力存在缺陷时,过早引入高层逻辑推理非但无益,反而可能干扰正确判断。
意义与展望:从技术“识字”走向智能“读史”
Chronicles-OCR基准的开源发布,其深远价值远超一份简单的模型性能排行榜。它首次以量化方式,清晰揭示了当前最先进的商用大模型能力与古文字数字化研究的实际需求之间存在的巨大技术鸿沟。这份基准如同一面精准的“镜子”,既映照出技术现状的不足,也为学术界与工业界的后续研究指明了明确的优化方向——必须从根本上增强模型对微观视觉特征的感知与理解能力。
推动大模型从简单的“字形识别”迈向深度的“文献解读”与“历史洞察”,这不仅是人工智能技术深化的挑战,更是利用科技守护与传承中华文明的重要使命。攻克古文字识别这类高度专业的长尾场景,将成为多模态大模型技术走向成熟、切实赋能文化遗产保护与数字化的关键突破口。道路已然开启,前景值得期待。
