中国开源OCR项目霸榜GitHub，狂揽7.3万星全球瞩目

首页

热心网友

转载

2026-03-31

西风发自凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

GitHub OCR项目之王刚刚历史性易主。

诞生近40年、统治OCR领域的技术标杆Tesseract OCR，被中国开源拉下王座——

百度文心衍生模型PaddleOCR以73300+Star，正式登顶GitHub全球OCR项目榜，终结谷歌Tesseract OCR长期霸榜局面。

这也是中国开源在这一基础赛道上，首次拿下全球Star第一。

不仅如此，在Hugging Face上，PaddleOCR也长期处于OCR与文档解析领域的头部位置，已经成为全球开发者的必备工具。

消息一出，开发者社区瞬间炸开了锅。

从“跟跑”到“领跑”，大模型时代，中国开源项目正在用实力改写全球竞争格局。

光超越还不够，划重点：

PaddleOCR同步升级服务放出一波福利，官⽹免费每⽇解析⻚数翻番，由1万提升⾄2万。用户还可通过OpenClaw直接调用PaddleOCR Skill，为其接入专业“视觉”能力。

PaddleOCR OCEAN生态联盟也重磅发布，面向核心开源贡献者、企业用户、模型托管平台及硬件厂商等OCR上下游伙伴，这将进一步推动OCR能力在更广泛场景中的应用落地。

大模型时代，PaddleOCR是如何拔得头筹的？OCR又为何如此重要？

超越谷歌Tesseract OCR，新王者诞生

在OCR领域，Tesseract OCR无疑是一座里程碑式的存在，它的发展历程跨越四十多年。

1985年，Tesseract OCR诞生于惠普公司的研发项目。彼时的OCR技术尚处于起步阶段，核心需求集中在商业文档的自动化识别与录入。

1994年，Tesseract OCR核心版本开发完成。在1995年美国内华达大学拉斯维加斯分校（UNLV）组织的OCR评测中，Tesseract OCR凭借优异的印刷体识别精度，跻身全球顶尖OCR引擎行列。

不过，随着惠普业务重心的调整，1996年后，Tesseract OCR的研发工作几乎陷入停滞。直到2005年，惠普决定将Tesseract OCR开源。

转折点出现在2006年，谷歌看中了Tesseract OCR的技术潜力，接过手来将其纳入自身开源生态体系。研发团队修复了大量历史遗留的bug，优化了引擎的运行速度和兼容性，更紧跟技术潮流，推动其完成了从传统算法到深度学习的跨越。

但技术世界的法则从来如此：没有永恒的王者，只有持续迭代的创新

文心大模型衍生而来的PaddleOCR，正是这场变革的引领者。

PaddleOCR的登顶，并非一朝一夕之功。它诞生于2020年，是深度学习时代下原生基于深度学习技术构建的模型。

2024年，大模型浪潮席卷整个AI行业，OCR赛道也迎来代际更替。文心大模型的持续高速迭代，直接为PaddleOCR带来了全新的能力天花板

PaddleOCR与文心大模型之间，逐渐玩出了一套非常有意思的双向赋能组合拳:

一个负责“看”：用高精度的文本提取能力，把文档中的文字、表格、公式准确捞出来，为大模型提供“食材”。

一个负责“懂”：文心大模型快速迭代，在多模态方向实现突破，视觉理解、跨模态融合、结构化输出，能力版图一步步补齐。文心不仅能消化这些信息，还能反哺PaddleOCR，让它真正理解复杂文档的逻辑脉络。

这种协同直接推动了PaddleOCR的爆发式增长。

Star History显示，GitHub PaddleOCR Star数自2024年起呈现加速增长态势。

基于文心大模型技术底座，PaddleOCR-VL、PaddleOCR-VL-1.5核心模型相继推出。

2025年10月，百度发布并开源自研多模态文档解析模型PaddleOCR-VL

PaddleOCR-VL仅0.9B参数量，就在全球权威文档解析评测榜单OmniDocBench V1.5上拿下92.6分的成绩，超越Gemini-2.5 Pro、GPT-4o等与其体量悬殊的多模态大模型以及OCR领域的垂直模型dots.ocr、MinerU等，获得综合性能全球第一。

在文本识别、公式识别、表格理解、阅读顺序四大核心能力上，PaddleOCR-VL全面刷新SOTA：

同时，发布16小时内，PaddleOCR-VL直冲HuggingFace Trending全球第一、ModelScope Trending全球第一、HuggingFace Paper Trending全球第一，持续五天登顶。

今年一月底，百度再次发力，发布并开源新一代文档解析模型PaddleOCR-VL-1.5

同样仅0.9B参数，PaddleOCR-VL-1.5在OmniDocBench V1.5上的整体精度再提升，达到94.5%，超过Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2等，全球综合性能排第一。

新一代模型更进一步实现了全球首次“异形框定位”

模型能够精准识别倾斜、弯折、拍照畸变等非规则文档形态，让“歪文档”实现稳定、可规模化解析。金融票据处理、档案数字化等真实场景中的老大难问题，终于有了解决方案。

目前，PaddleOCR用户已覆盖160个国家和地区，支持110+种语言识别，成为真正意义上具有全球影响力的开源项目。

5M参数模型硬刚千亿模型

这些只是水面之上的部分。让PaddleOCR实现翻盘的，还有水面之下的技术突破、积淀和创新。

CVPR 2026，PaddleOCR团队有两篇研究成果成功被收录。

这两篇论文瞄准的都是OCR领域最前沿、最棘手的行业难题。拆开这两篇论文，或许就能从更深层的技术视角看懂PaddleOCR到底强在哪。

首先是PP-OCRv5这项工作。

PP-OCRv5论文链接: https://arxiv.org/pdf/2603.24373v1

PP-OCRv5提出的是一个反直觉的事：参数不一定是越大越好。

模型参数仅5M，却能在手写、多语言、自然场景下表现超越GPT-4o等千亿参数的大模型。

怎么做到的？答案是“数据为中心”的系统化优化策略

OCR领域，大参数视觉语言模型占主导。但这类通用大模型普遍存在定位精度不足、文本幻觉等致命问题，而传统轻量化OCR模型又过度聚焦架构创新，始终被数据质量与规模的短板限制性能。

PP-OCRv5正是在这样的背景下诞生的。

百度飞桨团队没有盲目堆模型规模，而是提出了一套针对OCR数据的量化分析框架，从数据难度、数据准确性、数据多样性三个维度，彻底重构了OCR模型的数据训练策略。

实验验证了数据三维度优化的有效性。

关键是，团队发现了这样一条规律：

模型训练存在明确的“难度甜点区”，中等难度的数据训练效率最高，简单样本和高难度样本都需要控制比例；特征多样性远比盲目堆砌数据量更重要；而小模型对标签噪声居然有天然的强鲁棒性。

在内部多场景基准测试中，PP-OCRv5加权准确率从PP-OCRv4的53.0%大幅提升至80.1%，在OmniDocBench上，该模型以5M参数实现0.067的平均归一化编辑距离，在专用OCR模型中达到最优水平，在多语言处理、旋转文本、复杂背景等场景表现稳健，定位精度更高、幻觉更少、计算成本远低于百亿参数视觉语言模型。

这一切都指向一个核心结论：数据策略的上限还没有被充分挖掘。通过精细化的“数据工程”，小模型可以在OCR场景媲美大模型。

在PaddleOCR团队看来，“数据本身，可能会慢慢变成⼀条更独⽴、也更重要的能⼒曲线”。

再来看另一项被接收的工作，正是PaddleOCR-VL