腾讯混元联合发布首个古文字OCR评测基准Chronicles-OCR

时间：2026-05-19 12:33

腾讯混元等机构联合发布首个覆盖汉字七体演化的古文字识别评测基准Chronicles-OCR。该基准包含2800张高质量图像，通过四大任务评估模型对古文字的视觉感知能力。评测显示主流模型识别准确率低、依赖表面纹理，推理模式反而降低性能。基准揭示了技术差距，为提升模型微观视觉能力、推动文化遗产数。

5月18日，由腾讯混元大模型、SSV数字文化实验室、SSV技术架构部，携手安阳师范学院甲骨文信息处理教育部重点实验室、中国科学院信息工程研究所及南开大学共同组成的联合研究团队，正式发布了业界首个系统覆盖汉字“七体之变”完整演化脉络的古文字识别评测基准——Chronicles-OCR。该基准的发布，旨在精准评估当前前沿的多模态大语言模型在面对跨越三千年的汉字视觉形态剧烈变迁时，其核心的视觉感知与理解能力究竟处于何种水平。这不仅是一次关键的技术能力评测，更是推动数字人文与文化遗产数字化领域底层核心技术突破的重要里程碑。

腾讯混元等联合发布首个古文字OCR评测基准 Chronicles-OCR

基准构建：如何为三千年的汉字演化设计“考题”？

构建有效的评测基准，首要任务是准备高质量的“考题”。Chronicles-OCR数据集由古文字学与计算机视觉领域的专家进行了严谨的多层级交叉标注，共包含2800张经过严格平衡的高质量古文字图像。其核心创新在于“针对性平衡”与“阶段自适应”。项目团队针对古早字体（如甲骨文、金文、篆书）与成熟字体（隶书、楷书、行书、草书）在形态、载体、版式上的巨大差异，专门设计了与之相适应的标注范式。简而言之，即为汉字演变的不同历史阶段“量身定制”了科学、公平的评测标准。

基于此，该基准系统性地设立了四大核心评测任务：跨时代字符定位检测、细粒度古文字形识别、古文序列转写以及字体时代分类。这套组合任务的设计目标，在于实现对模型“视觉感知能力”与“语义推理能力”的解耦与综合评价，从而清晰洞察模型究竟是依赖“形状匹配”还是真正实现了“形义理解”。

评测结果：主流大模型在古文字识别上遭遇显著挑战

基准对包括GPT-5、Gemini 3.1 Pro、Claude Opus 4.7在内的28个国际主流大型多模态模型进行了全面评测，结果揭示了当前行业顶尖模型在古文字这一垂直领域存在令人意外的能力短板。

首先，在古早字体（如甲骨文）的字符检测任务中，由于字形与现代汉字差异巨大且完全缺乏规整版式先验，端到端的检测任务让几乎所有主流模型表现接近“失效”。这好比让一个只熟悉现代印刷体的人直接辨认狂草书法，连单个文字的边界都难以准确界定。

其次，在最具挑战的细粒度单字识别任务中，所有参评模型的最高识别准确率仅为27.1%。这意味着，即使模型大致定位了文字区域，也极有可能认错具体的字形。更为深入的发现来自字体分类任务：模型的表现分析表明，它们往往过度依赖载体材料的背景纹理（如龟甲裂纹、青铜器锈蚀）进行判断，而非聚焦于文字笔画本身的微观结构特征。这暴露出现有模型存在依赖表面纹理噪声而非本质形态特征的认知偏差。

此外，一个反直觉的发现是：在完成上述古文字任务时，开启模型的复杂推理（Reasoning）模式反而会放大其视觉感知的不确定性，导致整体性能下降。这充分说明，当基础的视觉感知能力存在缺陷时，过早引入高层逻辑推理非但无益，反而可能干扰正确判断。

意义与展望：从技术“识字”走向智能“读史”

Chronicles-OCR基准的开源发布，其深远价值远超一份简单的模型性能排行榜。它首次以量化方式，清晰揭示了当前最先进的商用大模型能力与古文字数字化研究的实际需求之间存在的巨大技术鸿沟。这份基准如同一面精准的“镜子”，既映照出技术现状的不足，也为学术界与工业界的后续研究指明了明确的优化方向——必须从根本上增强模型对微观视觉特征的感知与理解能力。

推动大模型从简单的“字形识别”迈向深度的“文献解读”与“历史洞察”，这不仅是人工智能技术深化的挑战，更是利用科技守护与传承中华文明的重要使命。攻克古文字识别这类高度专业的长尾场景，将成为多模态大模型技术走向成熟、切实赋能文化遗产保护与数字化的关键突破口。道路已然开启，前景值得期待。

来源：https://news.aibase.com/zh/news/28100

腾讯混元

上一篇百度2026年第一季度财报公布 AI业务收入占比首超52% 下一篇吐司AI绘画模型社区在线生图平台使用指南

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略，采用“1+N+X”布局，联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm，体重69kg，移动速度0 8m s，具备40个自由度，续航超2小时。预计明年一季度发布首款车载组件机器人，已在广州车展展示。

业界动态 · 2026-06-29

中国信科刷新光通信世界纪录每秒可下载1.4万部4K电影

3月25日，光通信领域迎来又一个里程碑：中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司，成功实现了2 5Pb s 24芯光纤超大容量实时光传输，再次刷新了世界纪录。这一研究成果不仅入选国际顶级光通信会议OFC（2026）并荣获“高分论文”称号，还受国际权威SCI

业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查，焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿，不意味着立即召回，但可能引发后续监管措施。

业界动态 · 2026-06-29

doc个人图书馆停服创始人称无偿转让失败

运营长达20年，累计服务8000万用户的360doc个人图书馆，最终还是迎来了谢幕时刻。2026年5月1日，这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失，而是始终未能寻得一位能够安全接管的合适人选。创始人蔡智在告别信中坦言，近两个月来，他一直在尝试将360doc无偿转

业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月，艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证，紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后，折射出一个清晰的市场趋势：移动办公、户外出行、宿舍上网等场景的需求正在快速增长，随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿