文档解析领域最近迎来了一位实力强劲的新选手。百度最新推出的PaddleOCR-VL-1.6,准确率一举提升至96.33%——在OmniDocBench v1.6评测中,全面超越Gemini-3-Pro、GPT-5.2等通用大模型及专业OCR模型,综合性能登顶全球第一。不仅如此,在面向真实复杂场景的Real5-OmniDocBench测试中,总指标也达到了93.19%,比Gemini-3-Pro高出近4个百分点。

从具体表现来看,在权威测试集OmniDocBench v1.6上,PaddleOCR-VL-1.6的多项能力均刷新了SOTA。文本、公式、表格等核心识别任务全面领先当前主流开源与闭源方案,尤其在表格、古籍、生僻字等传统难点场景上提升显著。印章检测、Spotting、图表识别等关键能力也同步增强,基本将文档数字化所需的核心能力全面升级。
熟悉OCR技术圈的朋友可能知道,PaddleOCR基于文心大模型训练而来,是文心多模态能力体系的重要组成。此次1.6版本在1.5的基础上,引入模型驱动的数据构建机制和渐进式训练优化,在维持0.9B轻量化架构的前提下,进一步提升了准确率和复杂场景的适应能力。值得一提的是,两代模型结构完全一致,开发者无需额外适配即可平滑迁移,这对实际落地部署非常友好。
事实上,PaddleOCR在文档理解能力上已持续迭代多年,从PaddleOCR-VL到1.5再到如今的1.6,每一步都走得扎实稳健。1.5版本创新的异形框定位能力已在真实场景中展现了良好的解析表现。更值得关注的是,PaddleOCR项目在GitHub上的Star数已突破79.2K,超越谷歌开源的Tesseract OCR,成为全球最受开发者欢迎的开源OCR项目之一。
目前PaddleOCR-VL-1.6已正式上线官网,支持网页端直接体验和API调用,模型代码与权重也已同步开源至GitHub和Hugging Face。全球开发者均可直接上手,亲自验证这款被称为“文档解析新王”的产品究竟有多能打。
