腾讯混元联合发布首个古文字OCR评测基准Chronicles-OCR
5月18日,由腾讯混元大模型、SSV数字文化实验室、SSV技术架构部,携手安阳师范学院甲骨文信息处理教育部重点实验室、中国科学院信息工程研究所及南开大学共同组成的联合研究团队,正式发布了业界首个系统覆盖汉字“七体之变”完整演化脉络的古文字识别评测基准——Chronicles-OCR。该基准的发布,旨在精准评估当前前沿的多模态大语言模型在面对跨越三千年的汉字视觉形态剧烈变迁时,其核心的视觉感知与理解能力究竟处于何种水平。这不仅是一次关键的技术能力评测,更是推动数字人文与文化遗产数字化领域底层核心技术突破的重要里程碑。

基准构建:如何为三千年的汉字演化设计“考题”?
构建有效的评测基准,首要任务是准备高质量的“考题”。Chronicles-OCR数据集由古文字学与计算机视觉领域的专家进行了严谨的多层级交叉标注,共包含2800张经过严格平衡的高质量古文字图像。其核心创新在于“针对性平衡”与“阶段自适应”。项目团队针对古早字体(如甲骨文、金文、篆书)与成熟字体(隶书、楷书、行书、草书)在形态、载体、版式上的巨大差异,专门设计了与之相适应的标注范式。简而言之,即为汉字演变的不同历史阶段“量身定制”了科学、公平的评测标准。
基于此,该基准系统性地设立了四大核心评测任务:跨时代字符定位检测、细粒度古文字形识别、古文序列转写以及字体时代分类。这套组合任务的设计目标,在于实现对模型“视觉感知能力”与“语义推理能力”的解耦与综合评价,从而清晰洞察模型究竟是依赖“形状匹配”还是真正实现了“形义理解”。
评测结果:主流大模型在古文字识别上遭遇显著挑战
基准对包括GPT-5、Gemini 3.1 Pro、Claude Opus 4.7在内的28个国际主流大型多模态模型进行了全面评测,结果揭示了当前行业顶尖模型在古文字这一垂直领域存在令人意外的能力短板。
首先,在古早字体(如甲骨文)的字符检测任务中,由于字形与现代汉字差异巨大且完全缺乏规整版式先验,端到端的检测任务让几乎所有主流模型表现接近“失效”。这好比让一个只熟悉现代印刷体的人直接辨认狂草书法,连单个文字的边界都难以准确界定。
其次,在最具挑战的细粒度单字识别任务中,所有参评模型的最高识别准确率仅为27.1%。这意味着,即使模型大致定位了文字区域,也极有可能认错具体的字形。更为深入的发现来自字体分类任务:模型的表现分析表明,它们往往过度依赖载体材料的背景纹理(如龟甲裂纹、青铜器锈蚀)进行判断,而非聚焦于文字笔画本身的微观结构特征。这暴露出现有模型存在依赖表面纹理噪声而非本质形态特征的认知偏差。
此外,一个反直觉的发现是:在完成上述古文字任务时,开启模型的复杂推理(Reasoning)模式反而会放大其视觉感知的不确定性,导致整体性能下降。这充分说明,当基础的视觉感知能力存在缺陷时,过早引入高层逻辑推理非但无益,反而可能干扰正确判断。
意义与展望:从技术“识字”走向智能“读史”
Chronicles-OCR基准的开源发布,其深远价值远超一份简单的模型性能排行榜。它首次以量化方式,清晰揭示了当前最先进的商用大模型能力与古文字数字化研究的实际需求之间存在的巨大技术鸿沟。这份基准如同一面精准的“镜子”,既映照出技术现状的不足,也为学术界与工业界的后续研究指明了明确的优化方向——必须从根本上增强模型对微观视觉特征的感知与理解能力。
推动大模型从简单的“字形识别”迈向深度的“文献解读”与“历史洞察”,这不仅是人工智能技术深化的挑战,更是利用科技守护与传承中华文明的重要使命。攻克古文字识别这类高度专业的长尾场景,将成为多模态大模型技术走向成熟、切实赋能文化遗产保护与数字化的关键突破口。道路已然开启,前景值得期待。
相关攻略
大模型领域的竞争,从来不只是参数规模的比拼,更是实用性与性价比的终极考验。最近,腾讯混元放出的新动作,或许为这场竞赛提供了一个值得关注的样本。 腾讯混元Hy3 preview发布并开源 4月23日,腾讯混元正式发布了Hy3 preview语言模型,并宣布开源。这个模型有点意思,它采用了快慢思考融合的
腾讯混元大模型家族迎来了新成员。4月23日,混元Hy3 preview语言模型正式发布并宣布开源。这不仅仅是一次常规迭代,而是混元技术路线重建后的首个成果,被定位为迄今“最智能”的模型。 从技术架构上看,Hy3 preview是一个融合了快慢思考机制的混合专家模型,总参数量达到295B,激活参数为2
腾讯的基础大模型,似乎终于迎来了转机。 5月7日,腾讯混元公布了一组数据:自上线以来,其最新模型Hy3 preview的Token调用量持续攀升,目前总量已超过上一代Hy2模型的10倍。其中,代码和智能体类场景的调用量增长尤为显著。 与此同时,来自第三方平台OpenRouter的公开数据也显示,在过
我们对于“AI个人助手”的想象,正变得越来越具体和迫切。 一个真正能融入日常生活的智能助手,必须能从我们生活的点滴痕迹中学习和理解,解决那些复杂场景下的实际问题。这听起来简单,实现起来却充满挑战。 在近期的AGI-Next前沿峰会上,腾讯的姚顺雨分享了一个生动的例子:当你询问AI“今天吃什么”时,真
5月7日,腾讯混元公布了一组关于其最新模型Hy3 preview的数据,结果相当引人注目。自该模型上线以来,其Token调用量持续攀升,目前总量已达到上一代版本Hy2的10倍之多。 增长点在哪里?代码和智能体类场景的贡献尤为突出。在腾讯内部的WorkBuddy、Codebuddy以及Qclaw等应用
热门专题
热门推荐
在文档数字化与智能处理领域,一款高效精准的在线工具能极大提升工作效率。今天重点评测的TextIn Tools,正是这样一个集OCR识别、格式转换于一体的全能型免费平台。它由上海合合信息科技开发,该公司在人工智能文字识别领域拥有超过17年的技术积累,实力深厚。我们熟悉的“扫描全能王”、“名片全能王”等
还在为制作PPT而烦恼吗?排版耗时、素材难寻、风格杂乱……这些常见困扰,或许一个智能工具就能高效化解。 WPS智能PPT,是一款基于先进人工智能技术的在线演示文稿辅助平台。其核心优势在于:用户仅需输入文本内容,内置的AI引擎便能自动进行视觉设计与美化,快速生成多种风格的精美版式供您挑选。这极大地简化
在追求高效办公的今天,各类AI工具不断涌现,但能够真正实现“一站式”智能集成的平台却屈指可数。本文将深入介绍的“超办AI”,正是这样一个致力于将多种AI能力深度融合,直接赋能日常工作效率的集成化平台。 超办AI是什么?一站式AI办公平台详解 简而言之,超办AI是一个智能办公解决方案平台。其核心理念非
学术灵感:AI驱动的中文论文写作辅助工具全解析 在科研写作过程中,从选题构思到初稿完成,研究者往往需要投入大量时间与精力。是否存在一种高效工具,能够在研究起点——即灵感激发与论文框架构建阶段——提供实质性帮助?本文将深入探讨的“学术灵感”平台,正是这样一款专注于中文论文写作场景的AI智能助手,旨在提
在视觉营销主导的数字化时代,一个名为“造物云”的在线3D营销设计平台正在重塑内容生产的规则。它本质上是一个基于浏览器的云端设计工具,其核心价值在于,让用户无需依赖复杂的专业软件或高昂的硬件,就能独立创作出具有商业摄影品质的3D渲染图片和动态视频。这为品牌营销、电商展示和社交媒体内容创作开辟了高效的新





