
2025年9月20日,IBM正式推出小型视觉语言模型Granite-Docling-258M,专注于端到端的文档转换任务。该模型已依据Apache 2.0开源协议发布,并上线于主流模型平台,供开发者自由获取与使用。
该模型参数规模为2.58亿,定位为面向文档与表格处理的轻量化解决方案,能够有效保留原始文件中的版面结构,包括表格、数学公式、列表及代码块等复杂元素。相较于传统OCR技术,其在识别精度方面表现更优,尤其在结构化信息提取上具备显著优势。
模型的核心技术基于DocTags,这是由IBM研究团队开发的一套通用文档结构标记语言。DocTags可精准描述页面中各元素的类型、位置坐标、阅读顺序以及元素之间的逻辑关系。通过将内容与版式分离,模型采用“先定位后识别”的处理流程,提升整体解析效率。完成识别后,结果可直接输出为Markdown、JSON或HTML等标准格式,亦可接入Docling工具库进行后续处理。
目前,Granite-Docling已支持中文、阿拉伯语和日语等多种语言,但尚未完全达到企业级应用所需的稳定性和覆盖广度。IBM表示,后续将持续扩展语言支持范围,并优化模型的准确性与鲁棒性。同时,团队计划增强DocTags与旗下AI平台模型的兼容能力,进一步将其词汇体系整合进Granite系列模型的分词器及训练流程中,以推动文档智能处理能力的整体提升。
