9月22日,百度智能云千帆平台迎来重大更新,正式发布全新视觉理解模型系列Qianfan-VL,并宣布全面开源。即日起至10月10日期间,用户可免费体验8B和70B两大版本模型。
此次发布的Qianfan-VL系列涵盖3B、8B和70B三个梯度版本,是针对企业级多模态应用场景深度优化的视觉大模型。该系列不仅拥有出色的基础能力,还重点强化了OCR和教育等高频应用领域的专项性能。
技术架构与性能优势
Qianfan-VL基于开源架构深度开发,依托百度自研昆仑芯P800的强大算力支持,可实现单任务5000卡的并行计算规模。这种技术组合显著提升了模型计算效率,使其在多类基准测试中均展现出行业领先的SOTA水平。
三大核心特性
- 多尺寸选择:提供3B到70B参数范围的模型选择,满足不同规模企业需求
- 思维链推理:8B/70B版本支持通过特殊token激活复杂推理能力
- OCR增强:在文档识别与版面理解方面表现突出

三大核心能力展现
通用能力方面,测试数据显示模型性能稳定提升,尤其在视觉理解和专业问答场景表现优异,呈现出明显的Scaling特性。
OCR与文档理解领域表现尤为突出:不仅能准确识别手写体、数学公式等复杂内容,还可实现卡证票据信息结构化提取;在复杂版面分析方面,具备精准解析表格、图表并进行智能问答的能力。
思维推理能力方面,8B/70B版本支持各类复杂场景应用:
- 数学解题
- 视觉推理
- 图表理解

实际应用案例
目前已成功应用于多个场景:
- OCR识别:包括卡证、票据等特殊场景
- 数学推理:解决各类复杂数学问题
- 文档处理:实现版面分析及智能问答
- 图表分析:支持多模态数据解读

百度智能云表示,此次开源是推动AI技术产业落地的关键一步。未来将持续推出更多面向实际生产场景的产业级模型,加速人工智能在各行业的深度应用。
