10月17日消息,HuggingFace官方数据显示,百度昨日发布的自研多模态文档解析模型PaddleOCR-VL,在短短20小时内便登顶HuggingFace Trending全球榜单首位。
据了解,该模型核心参数仅0.9B,兼具轻量化与高效率特性,能够以极低计算成本精准识别文本、手写汉字、表格、公式、图表等复杂元素,并支持109种语言。在权威榜单OmniBenchDoc V1.5中,它以92.6分的综合性能位列全球第一,四大核心能力全面超越GPT-4o等主流模型,刷新了OCR与视觉语言模型的性能纪录。
作为文心4.5的衍生模型,PaddleOCR-VL创新融合了NaViT动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型,实现了识别精度与运算效率的双重突破。

