深耕古籍多模态OCR,共探技术新边界
当多模态智能技术真正开始“读懂”那些泛黄纸页上的千年墨迹时,我们的团队也正式报名参加了EvaHan 2026国际评测——这不仅是技术竞赛,更是一场跨越时空与历史的深度对话。

为什么选择EvaHan 2026?
古籍数字化,本质上就是让机器能够识别竹简刻字、宣纸印文。OCR技术正是连接“图像”与“文本”的关键桥梁。然而古籍文本的挑战远非现代印刷体所能比拟:异体字数量庞大、图文混排如迷宫般复杂、手写本的笔势千变万化——传统OCR技术在这些难题上屡屡受挫。而多模态大模型的崛起,恰恰为我们开辟了一条全新的解决路径。
EvaHan系列评测已走过四届历程:2022年在法国马赛率先攻克古汉语分词与词性标注,2023年转战中国澳门挑战机器翻译,2024年在意大利都灵完成了自动句读与标点处理,2025年又在美国阿尔伯克基聚焦命名实体识别——每一步都在拓展古籍智能处理的边界。2026年推出的多模态OCR任务,可以说是第一次系统性地让大语言模型在真实古籍图像上“真刀真枪”地较量:既要实现端到端的文字识别,又要理解复杂的版面结构。这无疑是前沿中的前沿,也是我们毫不犹豫报名的重要原因。
你做过成本核算吗?一位熟练的校勘人员,人工录入一页典籍大约需要3小时。而一套高效的OCR系统,可将效率提升上百倍。参加此次评测,我们期望探索这项技术能走多远,只为让更多珍本古籍走出恒温柜、被更多人阅读与利用。
三大任务,三条技术路线
EvaHan 2026设置了三大核心任务。根据官方发布的信息,每个任务背后都有明确的技术方向,下面不妨做一番梳理:
印刷文本识别(数据集A)——官方计划以Xunzi_Qwen2_VL_7B_Instruct模型为基底,融合《四库全书》异体字库进行定向微调。简而言之,旨在重点攻克避讳字、异体字带来的识别混淆问题。这一思路具有很强的针对性,值得深入跟进其具体实现细节。
混合版式解析(数据集B)——官方拟研发一套基于空间注意力机制的版面分析模块,使模型能够像古籍学者一样,自动区分插图、批注与正文之间的层级关系。试想:一张书页上既有正文大字,又有天头地脚的小字批注,中间还夹杂着木刻插图——要想一次精准理解,确实需要具备相当的“视觉智慧”。
手写文献转写(数据集C)——官方探索了一种新方法:将书法风格特征(如笔势走向、墨色浓淡)转化为文字识别的辅助信号,构建“视觉特征→文字形态”的映射桥梁。这为字迹潦草、墨迹斑驳的手写古籍识别提供了全新的视角与解决路径。

至于参赛模式——封闭还是开放?我们正结合自身技术储备与资源进行综合评估,注册完成后将确定具体方式。无论选择哪种,都会严格遵守评测规则:封闭模式仅使用官方训练数据和指定预训练模型;开放模式则会在技术报告中完整披露所有外部资源。干干净净,不留灰色地带。
期待与同行切磋共进
从古籍修复室里的细心补缀,到实验室里的代码调试,这场评测让两个世界的人坐到了同一张桌前。技术比拼固然重要,但跨领域交流同样不可或缺——也许你处理残损文字的一个小技巧,就能解决我版面分析的大难题;反之亦然。
目前团队已完成注册信息填报,正在等待2026年1月1日训练数据的正式发布。让千年典籍在数字时代“开口说话”,需要更多人一起努力。
2026年5月,西班牙马略卡岛的LREC会场,我们争取带着精心准备的成果赴约。不为虚名——只为那些尘封在图书馆恒温柜里的古籍,能在这个时代重新被世人看见、被机器读懂,焕发出全新的生命力。
