首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
腾讯联合高校推出视觉感知评测基准ChroniclesOCR

腾讯联合高校推出视觉感知评测基准ChroniclesOCR

热心网友
44
转载
2026-05-19

Chronicles-OCR是什么

如果让当今最先进的AI视觉大模型去“阅读”三千年前的甲骨文,它能准确识别吗?这正是Chronicles-OCR评测基准致力于解决的核心科学问题。作为业内首个系统性覆盖汉字“七体之变”完整演化历程的跨时代视觉感知评测体系,它由腾讯混元团队联合中国科学院信息工程研究所、安阳师范学院、南开大学及故宫博物院共同推出,具有里程碑意义。

简而言之,Chronicles-OCR就像一份为AI精心设计的、横跨三千年的汉字“终极阅读理解”测试。这份测试集囊括了从殷商甲骨文到近现代草书在内的七大代表性字体,共包含2800张高质量、经专家严格校验的图像样本。其独特价值在于采用了创新的“阶段自适应”标注方法,并设计了四大核心评测任务,专门用于评估当前热门的视觉大语言模型在面对数千年汉字形态剧烈演变时,其视觉感知与理解能力的鲁棒性与泛化性究竟如何。

Chronicles-OCR的主要功能

该基准的功能设计系统而全面,旨在从多维度、精细化地探测与诊断模型的能力极限:

  • 七体全覆盖评测:完整涵盖甲骨文、金文、篆书、隶书、楷书、行书、草书这七大汉字演变关键字体,构建了从殷商到近现代的跨时间评测体系。这意味着模型需要同时理解古老的象形文字与高度抽象流畅的草书。
  • 阶段自适应标注:针对古文字与现代文字的显著差异,采用差异化标注策略。对于甲骨文、金文、篆书等古文字,提供单字级边界框及其对应的现代汉字映射;对于隶、楷、行、草等成熟字体,则提供序列级的文本行布局与阅读顺序标注,更贴近现代OCR实际应用场景。
  • 四大核心评测任务:任务设计由浅入深,包括跨时期字符定位、细粒度古文字识别、古文本解析以及字体分类,旨在全方位评估模型从字符定位、精确识别到上下文理解与归类的综合视觉语言能力。
  • 视觉指代评估机制:这是一个精巧的评估设计。通过用彩色提示框在图像中明确标出目标字符,再要求模型识别,从而将字符的“解码”能力与其在复杂版面中的“空间定位”能力解耦评估,有助于更精准地定位模型的具体缺陷。
  • 高质量专家标注:数据质量是基准可靠性的基石。所有标注工作均由古文字学博士、研究生及领域专家进行多轮交叉校验与审核,确保了字体分类、边界框和字符转录的极高准确性,学术严谨性极强。
  • 权威数据源整合:数据来源可靠、权威。甲骨文样本来自安阳师范学院甲骨文信息处理教育部重点实验室,金文和篆书由专业古文字学团队整理,而隶、楷、行、草字体样本则直接取自故宫博物院的文物手写体识别测试数据集。
  • 模型鲁棒性深度诊断:其最终目的不仅是性能排名,更是深度诊断。它旨在系统性地揭示视觉大语言模型在应对数千年汉字形态演化过程中的感知能力边界与瓶颈,为模型从现代文档解析向复杂历史书写系统泛化提供关键优化方向。

如何使用Chronicles-OCR

对于从事AI、OCR或数字人文研究的人员及开发者,可以遵循以下清晰路径使用该基准进行评测或相关研究:

  • 访问开源仓库:首先访问其GitHub开源项目页面,所有数据集、详细论文及官方评测代码均在此公开提供。
  • 下载数据集:获取完整的2800张图像数据集,其中七大字体均衡分布,各占400张,并下载配套的JSON或XML格式详细标注文件。
  • 理解数据格式:关键在于深入理解其“阶段自适应标注”规范。古文字阶段(甲骨文/金文/篆书)的标注包含单字边界框坐标和对应的现代汉字;成熟字体阶段(隶/楷/行/草)则侧重于序列级文本布局与阅读顺序信息。
  • 选择评测任务:根据您的研究重点,从四大核心任务(跨时期字符定位、细粒度古文字识别、古文本解析、字体分类)中选择一个或多个进行模型评估。
  • 准备被测模型:部署好您待评测的视觉大语言模型或OCR模型,确保其具备图像输入和文本/坐标输出的基本能力。
  • 执行模型推理:将数据集的图像输入您的模型,并按照所选任务的要求,让模型输出相应的预测结果,如字符边界框坐标、识别出的现代汉字、或判断的字体类别等。
  • 运行评测脚本:使用项目仓库提供的官方评估代码,将您的模型输出与标准标注文件进行自动比对,计算各项任务的精确性能指标,如定位准确率、归一化编辑距离、分类准确率等。
  • 分析评测结果:将您模型的评测结果与基准论文中已公布的SOTA模型数据进行横向对比,深入分析其在古文字感知、历史文档布局理解和字体演化认知方面的优势与短板。
  • 规范引用与反馈:若在学术论文或研究中使用了该基准,请按规定引用其发表论文。同时,欢迎通过GitHub Issues向开发团队反馈使用中遇到的问题或提出改进建议。

Chronicles-OCR的核心优势

与现有其他古籍OCR或汉字识别基准相比,Chronicles-OCR在多个维度上展现了其不可替代的独特价值与优势:

  • 业界首创跨时间评测体系:这是首个系统覆盖汉字“七体之变”完整演化轨迹的视觉感知基准,填补了从殷商到近现代长达三千年时间跨度的专项评测空白,视野宏大。
  • 顶级学术机构联合背书:由顶尖企业AI实验室与多家国家级权威学术及文博机构共同打造,从数据源头到标注质量均经过严格的学术把关,公信力与可信度极高。
  • 首创阶段自适应标注范式:深刻认识到不同历史阶段字体形态与书写规则的剧变,摒弃单一标注策略,采用差异化处理,使评估维度更精准,更符合文字演化的客观历史规律。
  • 深度揭示模型能力边界:它不仅是一个测试工具,更是一份详细的诊断报告。基准结果系统性地揭示了当前主流VLLMs在古文字细粒度识别与跨时代泛化上的严重不足,为后续模型优化提供了明确、具体的技术攻关方向。
  • 权威数据源与专家级标注:数据源头专业、纯净,标注过程由领域专家深度参与并校验,这种“高保真”数据是进行可靠、可复现学术研究的坚实基础。
  • 视觉指代解耦评估机制:通过彩色框视觉指代这一巧妙设计,将“字形识别能力”和“视觉定位能力”两个关键问题分离评估,使得对模型短板的诊断更加精细化与可解释。
  • 完全开源可复现:相关论文、数据集与评测代码全面开源,极大便利了全球学术界的复现验证、公平对比以及在此基础上的拓展研究,有力推动了该领域的开放协作与技术进步。

Chronicles-OCR的同类竞品对比

为了更清晰地定位Chronicles-OCR的独特之处,我们将其与古籍OCR及汉字识别领域的其他知名评测基准进行横向对比:

对比维度Chronicles-OCRAncientDocACCID
发布机构腾讯混元、中科院信工所、安阳师范学院、南开大学、故宫博物院字节跳动、北京交通大学等学术研究机构(论文未明确单一机构)
数据集规模2,800张严格平衡图像,七体各400张约3,000页古籍图像,来自100+部古籍2,892字符类别图像,含部首级标注
覆盖内容七大字体:甲骨文、金文、篆书、隶书、楷书、行书、草书14类古籍文档(经史子集、医学、天文历算等)古代汉字图像(侧重部首结构)
时间跨度约三千年(殷商至近现代)战国秦汉至明清古代汉字(未明确分期)
评测任务跨时期字符定位、细粒度古文字识别、古文本解析、字体分类页面级OCR、白话翻译、推理QA、知识QA等零样本字符识别、部首识别
标注粒度阶段自适应:古文字单字级边界框+现代汉字映射;成熟字体序列级布局页面级文本、问答对、翻译对字符级 + 部首级(含坐标、结构)
目标模型视觉大语言模型(VLLMs)视觉语言模型(VLMs)零样本OCR / 深度学习模型
核心创新首创跨时间汉字演化评测、阶段自适应标注范式、视觉指代解耦评估首个古籍多任务评测基准,从OCR延伸至知识推理首创部首级精细标注,支持零样本学习

通过对比可以清晰看出,Chronicles-OCR的核心特色在于其贯穿三千年的纵向字体演化视角和对视觉大语言模型(VLLM)的专项深度评测;而AncientDoc更侧重于古籍文档的多任务理解与知识挖掘,ACCID则聚焦于汉字部首结构的细粒度分析与零样本学习。三者定位互补,共同构成了推动古文数字化与智能识别前沿研究的重要基石。

Chronicles-OCR的应用场景

这样一个专业、严谨的评测基准,其最终价值将落地于广泛而深远的实际应用场景中:

  • 古文字智能识别与考释:直接辅助甲骨文、金文等尚未完全破译的古文字的自动化识别、比对与专家校验工作,有望显著降低古文字学研究的门槛,提升考释与研究效率。
  • 大规模古籍数字化工程:为历代书法碑帖、珍贵文献、历史档案的高精度OCR识别与结构化信息解析提供权威的评测标准和模型优化方向,是推动中华文化遗产系统性数字化存档与活化利用的关键技术支撑。
  • 字体与书法演化研究:为文字学、历史学和艺术史研究提供创新的量化分析工具。利用AI模型可大规模分析汉字从象形到表意、从篆隶到行草的形态演变规律,支撑跨学科的深度学术研究。
  • VLLM能力标准化评测:作为一项标准化基准,为全球学术界和工业界评测、对比不同视觉大语言模型在跨时代、跨字体视觉感知方面的能力、鲁棒性与泛化性提供了统一的“度量衡”和“试金石”。
  • 文物铭文与文献信息提取:可应用于青铜器铭文、战国竹简、汉代帛书、敦煌写卷等珍贵文物图像的现场或后期文字信息智能提取,为考古研究、文物鉴定与历史复原提供强有力的智能辅助工具。
  • 教育科普与文化传播:其直观的图像识别与古今字体对比功能,可广泛应用于汉字文化教学、博物馆互动展示、文化类APP开发中,生动演示古文字识别与字体演变过程,极大增强公众对汉字历史与中华文化的认知与兴趣。
来源:https://ai-bot.cn/chronicles-ocr/
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

腾讯Ardot公测开启一句话生成设计稿并一键转代码
科技数码
腾讯Ardot公测开启一句话生成设计稿并一键转代码

腾讯正式公测AI设计平台Ardot。用户用自然语言描述即可实时生成可编辑的设计初稿,并一键转为前端代码。平台还集成了多人在线协作、评论反馈与版本对比等功能,支持权限管理与流程追溯,旨在提升产设研协作效率。其微信小程序即将上线。

热心网友
05.18
腾讯一季度员工减少千人 刘炽平回应无大规模裁员计划
科技数码
腾讯一季度员工减少千人 刘炽平回应无大规模裁员计划

5月13日,腾讯控股发布了2026年第一季度的成绩单。财报数据背后,一个清晰的信号正在浮现:这家科技巨头正将AI置于前所未有的战略高度。 数据显示,第一季度腾讯非国际财务报告准则经营盈利同比增长9%,达到756亿元。但更有意思的是后面那句话——若剔除新AI产品的收入、成本及开支影响,这项盈利的同比增

热心网友
05.18
腾讯手游助手分辨率设置教程与最佳配置推荐
手机教程
腾讯手游助手分辨率设置教程与最佳配置推荐

腾讯手游助手的分辨率设置影响游戏画质与流畅度。用户可在游戏内设置中心的引擎选项中调整,依据电脑性能选择预设或自定义分辨率。高分辨率提升清晰度但要求硬件更高,低分辨率则利于稳定帧率。自定义时需匹配显示器比例,避免画面异常。调整即时生效,建议结合画质等设置综合。

热心网友
05.18
腾讯发布智能知识助手Copilot:记忆用户背景习惯与待办事项
业界动态
腾讯发布智能知识助手Copilot:记忆用户背景习惯与待办事项

4月29日,腾讯旗下效率平台ima正式发布其知识型智能体——Copilot。这款产品旨在为用户打造一个具备深度记忆与理解能力的专属数字助手,标志着个性化AI助手进入新阶段。 与传统的聊天机器人不同,ima Copilot的核心在于其深度个性化记忆系统。该系统由四大模块构成:Copilot设定(定义其

热心网友
05.18
腾讯IEG最佳员工养成记IMA平台实战心得
AI
腾讯IEG最佳员工养成记IMA平台实战心得

在AI助手日益普及的今天,一个能真正“懂你”、并能伴随你知识库一同成长的智能伙伴,似乎正从概念走向现实。最近,腾讯旗下的智能知识管理工具ima,在历经超过500天的迭代后,正式推出了其知识Agent产品——copilot。这款产品不仅内置了个性化记忆系统,还具备全场景伴随感知能力,并支持技能生态扩展

热心网友
05.17

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

东南亚智能手机一季度均价上涨19% 市场趋势与价格分析
业界动态
东南亚智能手机一季度均价上涨19% 市场趋势与价格分析

东南亚智能手机市场第一季度平均售价同比上涨19%,达349美元。出货量虽下滑9%,但市场总规模增长8%,呈现“量减价增”态势。这表明消费者开始转向高端机型,市场增长动力正从销量扩张向价值提升转变。

热心网友
05.19
代币归属期是什么意思?通俗解释解锁规则与投资影响
web3.0
代币归属期是什么意思?通俗解释解锁规则与投资影响

代币归属期指代币在发行后按预定时间表逐步解锁的过程。该机制旨在激励项目长期发展,防止早期投资者或团队成员大量抛售导致市场波动。归属期通常包含锁定期与释放期,具体规则由项目方设定。理解此概念有助于评估代币的潜在流通量与市场风险。

热心网友
05.19
小鹏L4级Robotaxi量产车下线 纯视觉方案下半年试运营
业界动态
小鹏L4级Robotaxi量产车下线 纯视觉方案下半年试运营

近日,小鹏汽车正式宣布,基于其旗舰SUV车型GX打造的首款Robotaxi(自动驾驶出租车)量产车已成功下线。这一重要进展标志着中国L4级高阶自动驾驶技术的商业化落地,迈出了坚实而关键的一步。 根据官方披露的核心信息,这款自动驾驶车型创造了多项行业纪录:它不仅是中国首款实现全栈自研、前装量产的Rob

热心网友
05.19
人民日报评恶意仅退款行为触碰法律红线违背公序良俗
业界动态
人民日报评恶意仅退款行为触碰法律红线违背公序良俗

5月19日,一则新闻引发广泛关注与讨论:河南濮阳一位主营冷冻榴莲果肉的商家,因遭遇买家恶意发起“仅退款”操作,在沟通无果后,选择驱车数百公里前往山东进行维权。几乎在同一时间,浙江杭州萧山区盈丰街道,也因类似恶意退货退款问题频发,被部分电商商家列入“交易谨慎名单”。这两起典型事件,将长期存在于电商交易

热心网友
05.19
AMD中国研发中心落户上海 苏姿丰称其深谙开放创新精髓
业界动态
AMD中国研发中心落户上海 苏姿丰称其深谙开放创新精髓

5月19日,AMD完成了一项具有里程碑意义的战略举措:首次将其年度AI开发者大会的主会场设在中国。在上海,AMD董事会主席兼首席执行官苏姿丰博士发表了核心主题演讲,其中所传递的战略信号,其深远意义远超单纯的技术发布。 贯穿整场演讲,一个核心信息被不断强化:中国市场对于AMD的全球战略重要性,已提升至

热心网友
05.19