RT-DETR：全新ViT系列模型助力铁路工人安全作业[Gradio版本发布！]

首页

AI资讯

热心网友

转载

2025-07-20

本文介绍使用PaddleDetection的RT-DETR模型实现铁路工人安全检测。该模型在含3222张图片、3类标签的数据集上，经数据预处理、模型训练等步骤，mAP(0.50,11point)达96.26%，平均FPS为18.32，较此前用ViT-base为backbone的PPYOLOE模型，精度和速度均显著提升，展现出ViT实时化潜力。

rt-detr：全新vit系列模型助力铁路工人安全作业[gradio版本发布！] - 游乐网

RT-DETR：又快又好的ViT系列模型，拉开ViT实时化的序幕！

在本项目之前，我发布过一个项目名为[AI达人特训营第三期]PPYOLOE遇上ViT助力铁路工人安全作业，感兴趣的小伙伴可以直接点进该链接去查看。在之前的项目中使用的是以 ViT-base 为 backbone 的 PPYOLOE 模型， mAP(0.50, 11point) 能够达到 87.64%，效果还是不错的，但是众所周知，ViT系列模型存在一个问题就是推理时延高，这极大地影响了ViT系列模型的落地应用，这也是我在该项目中提到的需要改进的点。

最近关注到了PaddleDetection新出的RT-DETR模型，根据论文给出的数据，能够达到实时检测的效果，在速度和精度上都超越了YOLO系列模型，我也是迫不及待地实践了一下。

整体情况如下：

单从本项目来看，mAP(0.50, 11point) 提升了 8.62 的百分点，average FPS 提升了 4.4 个点，是一个非常喜人的提升。可以看出RT-DETR在精度和速度上都是有着显著的提升，因此大家也可以在自己的项目中尝试使用这个模型，看看是否能够达到更好的效果。

学习本项目过程中，你可能感兴趣的链接地址：

RT-DETR Github链接：https://github.com/PaddlePaddle/PaddleDetection/tree/develop/configs/rtdetrRT-DETR 原论文链接：https://arxiv.org/abs/2304.08069PaddleDetection Github链接：https://github.com/PaddlePaddle/PaddleDetection数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/200816

一、模型简介

RT-DETR由BackBone、混合编码器和带有辅助预测头的Transformer编码器组成。整体结构如下所示（图片来自原论文）： RT-DETR：全新ViT系列模型助力铁路工人安全作业[Gradio版本发布！] - 游乐网

具体来说：

利用骨干网络最后三个阶段{

S_{3}

S3、

S_{4}

S4、

S_{5}

S5}的输出特征作为编码器的输入；设计了一个高效的混合编码器通过解耦尺度内交互（AIFI）和跨尺度融合模块（CCFM）来高效处理多尺度特征转换为一系列图像特征；采用IoU感知的查询选择机制来选择固定数量的图像特征以优化解码器查询的初始化；带有辅助预测头的解码器迭代地优化对象查询以生成方框和置信度分数。

最新数据如下：

RT-DETR：全新ViT系列模型助力铁路工人安全作业[Gradio版本发布！] - 游乐网

backbone：飞桨团队采用了经典的 ResNet 和可缩放的 HGNetv2 两种，使用两种 backbone 各训练了两个版本的 RT-DETR ，以 HGNetv2 为 backbone 的 RT-DETR 包括 L 和 X 版本，以 ResNet 为 backbone 的 RT-DETR 则包括 RT-DETR-R50 和 RT-DETR-R101 。 RT-DETR-R50 / 101 方便和现有的 DETR 变体进行对比，而 RT-DETR-L / X 则用来和现有的实时检测器（ YOLO 系列模型）进行对比。

Neck：现有的多尺度 Transformer 编码器在多个尺度的特征之间进行注意力运算，同时进行尺度内和尺度间特征交互，计算消耗较大。为了减少计算消耗，一个简单的办法是直接削减编码器层数。但是飞桨团队认为这并不能从根本上解决问题并且势必会对精度造成较大影响，更本质的方法应该是要解耦这种尺度内和尺度间的同时交互，缩短输入编码器的序列长度。为此，飞桨团队设计了一系列编码器变体来验证解耦尺度内和尺度间特征交互的可行性并最终演化为 HybridEncoder ，其包括两部分：Attention-based Intra-scale Feature Interaction (AIFI) 和 CNN-based Cross-scale Feature-fusion Module (CCFM) 。

Decoder & Head：DETR 架构有两个关键组件： Query Selection 和 Decoder 。Query Selection 的作用是从 Encoder 输出的特征序列中选择固定数量的特征作为 object queries ，其经过 Decoder 后由预测头映射为置信度和边界框。现有的 DETR 变体都是利用这些特征的分类分数直接选择 top-K 特征。然而，由于分类分数和 IoU 分数的分布存在不一致，分类得分高的预测框并不一定是和 GT 最接近的框，这导致高分类分数低 IoU 的框会被选中，而低分类分数高 IoU 的框会被丢弃，这将会损害检测器的性能。为解决这一问题，飞桨团队提出了 IoU-aware Query Selection ，通过在训练期间约束检测器对高 IoU 的特征产生高分类分数，对低 IoU 的特征产生低分类分数。从而使得模型根据分类分数选择的 top-K 特征对应的预测框同时具有高分类分数和高 IoU 分数。对于 Decoder ，飞桨团队并没有对其结构进行调整，目的是为了方便使用高精度的 DETR 的大检测模型对轻量级 DETR 检测器进行蒸馏。

数据增强和训练策略：数据增强采用的是基础的随机颜色抖动、随机翻转、裁剪和 Resize ，并且在验证和推理时图像的输入尺寸统一为 640 ，与 DETR 系列的处理方式有较大的不同，主要是为了满足实时性的要求。训练策略则是和 DETR 系列基本相同，优化器同样采用 AdamW ，默认在 COCO train2017 上训练 6x ，即 72 个 epoch 。

来源:https://www.php.cn/faq/1409650.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：豆包怎么上传图片让它识别图像输入功能的具体使用步骤下一篇：豆包能不能离线使用是否必须联网才可以运行豆包

相关攻略

AI资讯

Trae在Python数据分析与机器学习项目中的实际应用评测

Trae在Python数据分析与机器学习项目中主要通过四种方式提供支持：利用Auto模式自动生成并执行端到端分析脚本；通过AgentCLI命令行自动化机器学习建模流程；对现有代码进行智能调试与优化；借助语音交互快速构建数据处理函数。这些功能覆盖了从需求描述到代码生成、模型构建及代码优化的全流程。

热心网友

05.23

业界动态

Python collections模块高效使用指南与代码优化技巧

在Python编程中，你是否也曾编写过类似的统计代码？统计词频 count = {} for word in words: if word in count: count[word] += 1 else: count[word] = 1 实际上，这种高频的计数需求，完全可以通过Python内置

热心网友

05.22

AI资讯

Trae支持的Python版本详解及各版本兼容性指南

Trae稳定支持Python3 10至3 13版本，3 9及以下版本无法运行。Python3 14处于实验性支持阶段，核心功能可能受限。当存在多个3 10以上版本时，Trae优先选择虚拟环境中的解释器，其次为最高系统版本。此外，Trae仅兼容64位Python解释器，不支持32位架构。

热心网友

05.22

AI资讯

Python爬虫报错解决方案：从DOM解析到视觉识别的稳定抓取技巧

在企业级数据采集与自动化运维实践中，IT团队普遍面临一个核心挑战：Python爬虫为何频繁报错，修补维护何时才能终结？随着前端技术演进与动态反爬机制的日益复杂，依赖DOM解析的传统爬虫脚本往往陷入“部署即过时，运行即异常”的困境。本文将深入解析传统爬虫代码脆弱性的根本原因，并系统介绍一种能够重塑数据

热心网友

05.21

业界动态

Docker镜像制作标准流程：Java、Vue、Python与Go项目实践指南

很多刚接触Docker的开发者常有一个误解：制作镜像不就是把源代码打包进去就行了吗？实际上，在企业级的标准化开发流程中，直接将源码打包进Docker镜像是非常不专业的做法。这会导致镜像体积臃肿、引入潜在安全风险，并且模糊了“构建环境”与“运行环境”的边界。本文将深入解析Java、Vue、Go、Pyt

热心网友

05.21