当人工智能试图解读现代屏幕上的代码时,它是否也能理解三千年前镌刻在龟甲与兽骨上的文明密码?近日,腾讯混元大模型与SSV数字文化实验室携手故宫博物院及多所顶尖高校,正式发布了业界首个完整覆盖汉字“七体之变”演化轨迹的评测基准——“Chronicles-OCR”。这一基准旨在系统评估AI对中国古文字的感知与识别能力。

为确保评估的真实性与客观性,研究团队邀请领域专家进行了多层级交叉标注,构建了包含2800张高质量图像的严格平衡数据集。在标注方法上,团队采取了针对性策略:对甲骨文、金文、篆书等古老字体,进行单字级别的精细标注;而对隶书、楷书、行书、草书等后续成熟字体,则采用序列级转写,以保留其原始行文顺序与上下文关联。
主流视觉模型面临严峻挑战
基于该基准,项目组设计了四个由浅入深的核心评测任务,其关键思路在于将模型的“视觉感知”能力与“语义推理”能力进行严格分离。随后,团队对包括GPT-5、Gemini 3.1 Pro、Claude Opus 4.7在内的28个主流多模态大模型进行了全面测试,结果令人深思。
当面对缺乏现代排版先验知识的古老字体时,主流大模型在端到端的文本检测任务中几乎全部失效。即使在要求更低的细粒度单字识别任务上,最高准确率也仅为27.1%。一个值得关注的发现是,在此类任务中,若强行启用大模型的“推理”能力,不仅无法辅助理解,反而会放大其在视觉感知阶段的不确定性,导致整体识别性能进一步下降。
暴露微观笔画结构识别短板
此次评测同时揭示了当前视觉大模型存在的一个显著认知偏差:在进行字体分类时,模型往往更容易被载体材质、纹理背景等宏观视觉特征所干扰,而非专注于辨析文字本身微观的笔画结构与风格差异。这指向了一个核心问题——即便是当今最先进的AI,在面对承载数千年中华文明演变的传统古文字时,距离真正意义上的“理解”与“解读”仍有巨大差距。
汉字从殷商甲骨文一路演变至今,其形体变迁本身就是一部可视化的文明发展史。Chronicles-OCR基准的开源,正是直面了这一技术现状。它通过清晰呈现的性能鸿沟,为未来视觉大模型的进化指明了方向:从基础的“字符识别”,迈向深层的“历史解读”。
