当古籍文献与人工智能技术深度融合,会激发怎样的创新可能?一个名为“识典古籍”的数字化平台正为此提供生动实践。该平台由抖音公益与北京大学联合研发,致力于打造一个免费、稳定、易用的古籍检索与在线阅读系统。其长远愿景是运用智能技术,系统化整理上万种古籍资源,涵盖儒家、释家、道家等核心经典文献,并向社会公众免费开放。
智能化技术是平台实现古籍数字化的核心支撑。项目团队负责人介绍,目前主要依托三项关键技术:古籍文字识别(OCR)、自动句读标点与命名实体识别。文字识别技术能够对古籍影印图像中的文字进行精准切分、识别与顺序还原;自动标点技术则通过序列标注模型,为原本无标点的古文自动添加句读,显著改善了阅读体验。
在资源建设方面,“识典古籍”平台已收录了包括道家经典、文学名著在内的多类古籍文献。平台还提供了强大的高级检索功能,用户可通过书名、作者、关键词乃至内容片段等多种方式进行精确检索,快速找到目标古籍资料。
然而,唤醒沉睡的典籍是一项艰巨工程。负责人指出,目前全国亟待修复的古籍数量约1000万册件。虽然已有8万种古籍完成了影像数字化,近4万种实现了文本数字化转化,但面对浩如烟海的古籍存量,这仍是漫长征程的起点。平台计划以智能化方式整理一万种古籍,但并非所有藏品都能直接进入该流程。由于古籍保存状态不一、版本质量存在差异,大量文献需先经过专业的修复、校勘与整理,才能进行后续的数字化与智能处理。
AI技术让古籍经典重焕生机,识典古籍平台已开放3000万字符资源
https://www.jiqizhixin.com/articles/2022-10-14-4
识典古籍官网入口:https://www.shidianguji.com
