游乐游手机版
首页/业界动态/文章详情

首个中国古文字OCR评测基准开源视觉大模型表现如何

时间:2026-05-20 10:08
当人工智能试图解读现代屏幕上的代码时,它是否也能理解三千年前镌刻在龟甲与兽骨上的文明密码?近日,腾讯混元大模型与SSV数字文化实验室携手故宫博物院及多所顶尖高校,正式发布了业界首个完整覆盖汉字“七体之变”演化轨迹的评测基准——“Chronicles-OCR”。这一基准旨在系统评估AI对中国古文字的感

当人工智能试图解读现代屏幕上的代码时,它是否也能理解三千年前镌刻在龟甲与兽骨上的文明密码?近日,腾讯混元大模型与SSV数字文化实验室携手故宫博物院及多所顶尖高校,正式发布了业界首个完整覆盖汉字“七体之变”演化轨迹的评测基准——“Chronicles-OCR”。这一基准旨在系统评估AI对中国古文字的感知与识别能力。

视觉大模型遭遇滑铁卢:首个中国古文字OCR评测基准开源

为确保评估的真实性与客观性,研究团队邀请领域专家进行了多层级交叉标注,构建了包含2800张高质量图像的严格平衡数据集。在标注方法上,团队采取了针对性策略:对甲骨文、金文、篆书等古老字体,进行单字级别的精细标注;而对隶书、楷书、行书、草书等后续成熟字体,则采用序列级转写,以保留其原始行文顺序与上下文关联。

主流视觉模型面临严峻挑战

基于该基准,项目组设计了四个由浅入深的核心评测任务,其关键思路在于将模型的“视觉感知”能力与“语义推理”能力进行严格分离。随后,团队对包括GPT-5、Gemini 3.1 Pro、Claude Opus 4.7在内的28个主流多模态大模型进行了全面测试,结果令人深思。

当面对缺乏现代排版先验知识的古老字体时,主流大模型在端到端的文本检测任务中几乎全部失效。即使在要求更低的细粒度单字识别任务上,最高准确率也仅为27.1%。一个值得关注的发现是,在此类任务中,若强行启用大模型的“推理”能力,不仅无法辅助理解,反而会放大其在视觉感知阶段的不确定性,导致整体识别性能进一步下降。

暴露微观笔画结构识别短板

此次评测同时揭示了当前视觉大模型存在的一个显著认知偏差:在进行字体分类时,模型往往更容易被载体材质、纹理背景等宏观视觉特征所干扰,而非专注于辨析文字本身微观的笔画结构与风格差异。这指向了一个核心问题——即便是当今最先进的AI,在面对承载数千年中华文明演变的传统古文字时,距离真正意义上的“理解”与“解读”仍有巨大差距。

汉字从殷商甲骨文一路演变至今,其形体变迁本身就是一部可视化的文明发展史。Chronicles-OCR基准的开源,正是直面了这一技术现状。它通过清晰呈现的性能鸿沟,为未来视觉大模型的进化指明了方向:从基础的“字符识别”,迈向深层的“历史解读”。

来源:https://news.aibase.com/zh/news/28137
上一篇AI智能体为何会辱骂用户 深度剖析模型失控根源与防范策略 下一篇iOS 26与27测试版发布时间表预测
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
诺基亚TA-1619入网:1400mAh电池双卡双待新机
业界动态 · 2026-07-01

诺基亚TA-1619入网:1400mAh电池双卡双待新机

诺基亚又有新动作了。7月1日消息,一款型号为TA-1619的诺基亚新机已经拿到了电信设备进网许可,不过证件照目前还没公布。 从入网信息来看,这是一款TD-LTE数字移动电话机,支持TD-LTE网络,属于LTE单天线终端设备。双卡双待、VoLTE语音模式都支持,终端款式为直板。核心配置方面,电池额定容

芯佰微CBMRF900系列国产射频芯片突破海外壁垒
业界动态 · 2026-07-01

芯佰微CBMRF900系列国产射频芯片突破海外壁垒

芯佰微电子发布CBMRF9002和CBMRF9009两款射频收发芯片,采用直接变频架构,覆盖10MHz至7250MHz频段,支持最大450MHz带宽及JESD204B高速接口,性能对标国际,满足5G基站与卫星通信等高端需求,突破海外技术壁垒。

月起私人充电桩可卖电 每度净赚5毛
业界动态 · 2026-07-01

月起私人充电桩可卖电 每度净赚5毛

近期有一则重大利好消息,值得新能源车主们特别留意——车网互动价格机制改革已正式落地。自7月1日起,湖北武汉的新能源车主,可在家中的私人充电桩上通过“卖电”轻松赚钱。具体而言,就是借助峰谷电价差,实现低买高卖,每度电净收益约5毛钱。过去,车网互动(V2G)基本只局限于特定的公共充电站,受试点规模限制,

谷歌发布Nano Banana 2 Lite 4秒出图1元4张
业界动态 · 2026-07-01

谷歌发布Nano Banana 2 Lite 4秒出图1元4张

先说几个关键信息:谷歌DeepMind又给图像生成赛道添了新选项。7月1日发布的消息,Nano Banana 2 Lite正式亮相。这个名字听起来像是水果命名系列大爆发,实际上它的技术代号是Gemini 3 1 Flash Lite Image,属于Gemini 3 1家族。最大的卖点就两个:快,便

技嘉专业电竞装备助力2025 CFS世界总决赛
业界动态 · 2026-07-01

技嘉专业电竞装备助力2025 CFS世界总决赛

2025CFS世界总决赛将于12月3日至14日在重庆举行,来自四大赛区的16支战队参赛。技嘉AORUS作为赛事设备合作伙伴,以主板、显示器等专业硬件保障比赛稳定流畅,并通过赛事反哺研发的闭环模式支持电竞发展。