首个中国古文字OCR评测基准开源视觉大模型表现如何
当人工智能试图解读现代屏幕上的代码时,它是否也能理解三千年前镌刻在龟甲与兽骨上的文明密码?近日,腾讯混元大模型与SSV数字文化实验室携手故宫博物院及多所顶尖高校,正式发布了业界首个完整覆盖汉字“七体之变”演化轨迹的评测基准——“Chronicles-OCR”。这一基准旨在系统评估AI对中国古文字的感知与识别能力。

为确保评估的真实性与客观性,研究团队邀请领域专家进行了多层级交叉标注,构建了包含2800张高质量图像的严格平衡数据集。在标注方法上,团队采取了针对性策略:对甲骨文、金文、篆书等古老字体,进行单字级别的精细标注;而对隶书、楷书、行书、草书等后续成熟字体,则采用序列级转写,以保留其原始行文顺序与上下文关联。
主流视觉模型面临严峻挑战
基于该基准,项目组设计了四个由浅入深的核心评测任务,其关键思路在于将模型的“视觉感知”能力与“语义推理”能力进行严格分离。随后,团队对包括GPT-5、Gemini 3.1 Pro、Claude Opus 4.7在内的28个主流多模态大模型进行了全面测试,结果令人深思。
当面对缺乏现代排版先验知识的古老字体时,主流大模型在端到端的文本检测任务中几乎全部失效。即使在要求更低的细粒度单字识别任务上,最高准确率也仅为27.1%。一个值得关注的发现是,在此类任务中,若强行启用大模型的“推理”能力,不仅无法辅助理解,反而会放大其在视觉感知阶段的不确定性,导致整体识别性能进一步下降。
暴露微观笔画结构识别短板
此次评测同时揭示了当前视觉大模型存在的一个显著认知偏差:在进行字体分类时,模型往往更容易被载体材质、纹理背景等宏观视觉特征所干扰,而非专注于辨析文字本身微观的笔画结构与风格差异。这指向了一个核心问题——即便是当今最先进的AI,在面对承载数千年中华文明演变的传统古文字时,距离真正意义上的“理解”与“解读”仍有巨大差距。
汉字从殷商甲骨文一路演变至今,其形体变迁本身就是一部可视化的文明发展史。Chronicles-OCR基准的开源,正是直面了这一技术现状。它通过清晰呈现的性能鸿沟,为未来视觉大模型的进化指明了方向:从基础的“字符识别”,迈向深层的“历史解读”。
相关攻略
当前,视觉语言动作模型(VLA)作为具身智能的核心技术路径,正面临严重的“碎片化”挑战。不同团队采用的动作解码范式各异,数据与训练管线深度绑定,评测标准互不统一,导致研究成果难以横向对比,复现成本高昂,这严重阻碍了领域基础模型的迭代与进步。 针对这一行业痛点,开源项目StarVLA并未选择盲目堆砌算
对于许多企业而言,将AI智能体从概念变为稳定可靠的生产力工具,一直是个耗时耗力的“大工程”。光是构建沙箱环境、配置权限凭证、搭建监控链路这些基础设施,就足以让一个工程团队忙上数月。然而,就在最近,这个漫长的过程被大幅缩短了。 4月9日,Anthropic正式发布了面向企业的智能体托管平台Claude
AMD在上海举办AI开发者日活动,宣布多项本土生态支持举措。其ROCm平台已为小米等国产开源大模型提供适配,并支持超300万个模型。同时推出免费AI开发者云服务,并与魔搭社区及阿里云合作,方便开发者调用AMD算力。活动还设置多场GPU实操工作坊,旨在通过软硬件及资源全方位支持,构建开放的AI算力生态。
地平线开源专为人形机器人设计的4亿参数HoloMotion-1“小脑”模型,可在端侧实现每秒300帧实时推理。该模型融合多源训练数据并转化为机器人指令,具备优秀零样本迁移能力,能完成舞蹈、爬行、交互等复杂动作,有效应对动态平衡与接触控制等挑战,推动全身运动控制向更智能灵活方向发展。
结论:AI的“冷漠”并非情感缺失,而是算法对齐与商业成本博弈的产物 近期,许多用户反馈AI助手似乎变得“冷淡”了——回复更简短,语气更机械,甚至有些“偷懒”。这背后并非技术退步,而是一场关于安全性、推理成本与对齐目标的复杂权衡。要打破这种僵局,关键在于让AI从“通才”转向“专家”,通过私有化部署与精
热门专题
热门推荐
苹果MacStudio库存见底,预示新款即将发布。外观预计延续经典紧凑设计,接口布局不变。核心升级为M5Max和M5Ultra芯片,性能大幅提升,但内存供应可能受限。固态硬盘速度有望翻倍。作为苹果专业桌面新旗舰,其起售价可能小幅上调,WWDC大会可能是发布窗口。
对于使用尼康Z卡口APS-C画幅(DX格式)相机(如Z fc、Z30、Z50)的摄影爱好者而言,在套机镜头之外选择一支定焦镜头,是提升创作自由度和画面质量的关键一步。尼克尔 Z DX 24mm f 1 7正是这样一款专为轻量化与大光圈设计的定焦镜头,目前京东售价1899元,为追求便携与画质平衡的用户
自动驾驶技术的分级标准正面临行业内部的深度反思与重构。在2026北京车展上,小马智行联合创始人兼CEO彭军发表的观点,将行业关注的焦点从技术参数转向了更为根本的责任归属议题。 彭军明确指出,当前广泛采用的L1至L5自动驾驶分级体系已显得“极其无厘头”。他认为,这些层级划分并非衡量自动驾驶商业化前景的
4月28日,《商业内幕》发布的一篇深度报道,揭示了特斯拉自动驾驶承诺背后日益凸显的信任危机。多年来,“未来将实现完全自动驾驶”是特斯拉吸引消费者的核心卖点,但对于众多早期支持者而言,这一愿景正变得愈发渺茫。 图1:马斯克确认HW3车型无法升级至无监督版FSD 问题的根源在于硬件代际差异。在近期举行的
当AI智能体不仅能说会道,还能帮你订餐、写报告,甚至用周杰伦的风格唱首歌时,汽车行业的竞争焦点,已经悄然从硬件参数转向了软件生态。这届北京车展,就是最好的证明。 “你能让它用周杰伦那种吐字不清的风格,唱首歌吗?”在火山引擎的展台,一位体验者向工作人员提出了这个有趣的要求。指令下达后,座舱里的“豆包”





