游乐游手机版
首页/AI教程/文章详情

基于YOLOv11深度学习的错题自动切分系统

时间:2026-06-09 15:21
基于DyHead与YOLOv11构建双模型协同架构,实现试卷错题自动切分。题目分割采用DyHead搭配Swin-Transformer,mAP@0 5达98 2%;错符检测使用YOLOv11-640,F1-score为96 5%,可识别五种常见符号。通过四重匹配策略(中心点包含、重叠面积、IOU、欧氏距离)将错题与符号对应。

基于DyHead与YOLOv11的错题自动切分系统

先来梳理一下这个项目的核心思路:将动态头部检测(DyHead)与YOLOv11相结合,打造一套能够自动识别并切分错题的智能系统。系统主要完成三项任务——利用DyHead精准切割试卷上的题目区域,借助YOLOv11识别五种常见错误符号(✕、/、✓̷、?、○),最后通过一套四级匹配策略将错题与对应的符号正确关联。

核心技术

双模型协同架构

功能模块 采用技术 精度表现
题目区域分割 DyHead + Swin-Transformer mAP@0.5: 98.2%
错误符号检测 YOLOv11-640 F1-score: 96.5%

在题目分割方面,采用DyHead与Swin-Transformer的组合方案,mAP@0.5达到98.2%,基本能够精准框定每道题的范围。错误符号检测则使用YOLOv11-640模型,F1-score为96.5%,对五类错误符号的识别效果相当可靠。

四级匹配策略

匹配策略是整个系统中颇具巧思的环节。如何将错题与错误符号一一对应?这里设计了四层方案,按优先级从高到低排列:

  • 中心点包含(最高优先级)——若错误符号的中心点落在题目框内部,直接配对,简单直接且有效。
  • 重叠面积占比 >30%——若中心点未落在框内,则检查两者重叠面积是否足够大。
  • IOU相似度 >0.25——重叠面积仍不达标?再计算交并比(IOU)进行判断。
  • 欧氏距离 <50px(兜底方案)——若以上均不满足,则取距离最近的错误符号与题目,50像素以内即视为匹配。

这一策略的优势在于几乎不会产生漏匹配。实际测试表明,中心点包含方案能应对绝大多数场景——毕竟大多数错误符号都位于题目区域内。后面三层主要用于处理极端情况,例如错误符号恰好写在题目边界上。

快速部署

环境配置

# 安装PyTorch+CUDA11.8
pip install torch==2.4.1 torchvision==0.19.1 --index-url https://download.pytorch.org/whl/cu118

# 安装项目依赖
pip install -e detectron2 ultralytics flask pillow==9.5.0

模型部署

下载预训练模型后,按以下路径放置:

./configs/dyhead_swint_atss_fpn_2x_ms.yaml
./yolo_ckps/best.pt

启动服务

python flask_error_detection.py  # 访问 https://localhost:5004

API接口文档

错题检测接口

Endpoint: POST /detect

请求示例:

curl -X POST https://localhost:5004/detect -F "image=@test.jpg"

响应示例:

{
  "success": true,
  "data": {
    "error_count": 3,
    "questions": [
      {
        "bbox": [100,50,200,150],
        "errors": [
          {
            "type": "cuo",
            "confidence": 0.92,
            "match_method": "中心点包含"
          }
        ]
      }
    ],
    "visualization": {
      "errors_img": "base64...",
      "matches_img": "base64..."
    }
  }
}

接口返回的结果非常直观——错题数量、每道题的边界框、对应的错误符号类型及置信度,同时附带可视化结果图。base64编码的图片可直接在前端展示,省去了额外的图片处理环节。

系统架构

Cut/
├── core/
│   ├── dyhead_detector.py  # 题目区域分割
│   └── yolo_detector.py    # 错符检测
├── utils/
│   ├── matcher.py          # 四级匹配算法
│   └── visualization.py   # 结果可视化
└── web/
    ├── static/             # 前端资源
    └── templates/          # HTML页面

整体架构十分轻量,核心逻辑仅包含四个文件:两个检测器、一个匹配器、一个可视化工具。Web层基于Flask搭建,前端资源直接挂载在static目录下,部署起来非常便捷。

效果演示

Web界面支持实时上传试卷图片,系统会自动标注出错题区域,并支持逐一切分下载。从实际测试看,无论是A4还是B5规格的试卷,手写批改痕迹还是印刷体符号,系统都能稳定处理。

检测效果对比示意

左:原始试卷 | 右:错题标记与切分结果

教育场景适配:支持A4/B5试卷、手写批改痕迹、多科目符号体

这套系统已在真实教育场景中稳定运行一段时间。最令人省心的是,它无需对试卷做任何预处理——拍照上传即可。当然,如果试卷歪斜严重或光线极差,建议先进行预处理,这样检测精度会更高。

来源:https://developer.aliyun.com/article/1740226
上一篇SubAgent子袋5大实战技巧,Hermes Agent多任务效率翻倍 下一篇基于ResNet50的鱼类图像分类识别系统设计与实现
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
RAG四标融合企业知识资产体系四库协同GEO优化实践
AI教程 · 2026-07-01

RAG四标融合企业知识资产体系四库协同GEO优化实践

生成式AI正在彻底改写信息检索的底层逻辑。传统SEO依赖关键词堆砌和外链建设的策略,在大模型的内容采信规则下已经基本失效。取而代之的,是生成式引擎优化(GEO)。它不再关注外链数量,而是重点衡量你的知识是否结构化、证据链是否坚实、信源是否可靠——这些维度才是RAG(检索增强生成)架构真正看重的核心指

一个普通上班人分享WorkBuddy使用心得与真实体验
AI教程 · 2026-07-01

一个普通上班人分享WorkBuddy使用心得与真实体验

前言 最近我开始使用WorkBuddy——这是腾讯推出的一款AI办公工作台。差不多用了一周时间,趁印象还新鲜,把真实的使用感受记录下来,给还在犹豫的朋友做个参考。不吹不黑,只说实际体验。 初印象:不只是聊天机器人 之前用过不少AI工具,大多数就是个对话框,你问它答,答完就结束了。WorkBuddy不

AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录
AI教程 · 2026-07-01

AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录

先讲一个颇具戏剧性的开端。 这件事的开端颇显荒诞——有用户前来咨询,称AI Pro版的介绍中提到我们有一款“视频录制拓展”。团队全体成员都感到困惑,翻遍产品列表,发现根本不存在该组件。AI那种“一本正经胡说八道”的能力,这次确实让我们陷入尴尬。 按常理,此事到此便可结束——一句“抱歉,暂时没有这个拓

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同
AI教程 · 2026-07-01

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同

OLAP和SQL-on-Hadoop虽都使用SQL查询数据,但本质不同。SQL-on-Hadoop负责海量数据批量计算与ETL,查询速度秒级至分钟级;OLAP通过预聚合实现毫秒级多维分析,适合BI报表。两者在数据平台分工协作,前者是后厨加工,后者是前台快速服务。

GEO优化深度解析:AI偏好FAQ还是长文内容?
AI教程 · 2026-07-01

GEO优化深度解析:AI偏好FAQ还是长文内容?

在GEO优化中,AI对内容形式无统一偏好:FAQ在简单查询中引用率41%,长文在复杂查询中达58%。内容应基于用户意图选择形式,FAQ适配简单事实类问题,长文建立主题权威,两者互补而非替代。