RT-DETR:全新ViT系列模型助力铁路工人安全作业[Gradio版本发布!]
本文介绍使用PaddleDetection的RT-DETR模型实现铁路工人安全检测。该模型在含3222张图片、3类标签的数据集上,经数据预处理、模型训练等步骤,mAP(0.50,11point)达96.26%,平均FPS为18.32,较此前用ViT-base为backbone的PPYOLOE模型,精度和速度均显著提升,展现出ViT实时化潜力。
![rt-detr:全新vit系列模型助力铁路工人安全作业[gradio版本发布!] - 游乐网](https://www.youleyou.com/uploadfile/2025/0716/20250716061648354.webp)
RT-DETR:又快又好的ViT系列模型,拉开ViT实时化的序幕!
在本项目之前,我发布过一个项目名为[AI达人特训营第三期]PPYOLOE遇上ViT助力铁路工人安全作业,感兴趣的小伙伴可以直接点进该链接去查看。在之前的项目中使用的是以 ViT-base 为 backbone 的 PPYOLOE 模型, mAP(0.50, 11point) 能够达到 87.64%,效果还是不错的,但是众所周知,ViT系列模型存在一个问题就是推理时延高,这极大地影响了ViT系列模型的落地应用,这也是我在该项目中提到的需要改进的点。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
最近关注到了PaddleDetection新出的RT-DETR模型,根据论文给出的数据,能够达到实时检测的效果,在速度和精度上都超越了YOLO系列模型,我也是迫不及待地实践了一下。
整体情况如下:
单从本项目来看,mAP(0.50, 11point) 提升了 8.62 的百分点,average FPS 提升了 4.4 个点,是一个非常喜人的提升。可以看出RT-DETR在精度和速度上都是有着显著的提升,因此大家也可以在自己的项目中尝试使用这个模型,看看是否能够达到更好的效果。
学习本项目过程中,你可能感兴趣的链接地址:
RT-DETR Github链接:https://github.com/PaddlePaddle/PaddleDetection/tree/develop/configs/rtdetrRT-DETR 原论文链接:https://arxiv.org/abs/2304.08069PaddleDetection Github链接:https://github.com/PaddlePaddle/PaddleDetection数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/200816一、模型简介
RT-DETR由BackBone、混合编码器和带有辅助预测头的Transformer编码器组成。整体结构如下所示(图片来自原论文):![RT-DETR:全新ViT系列模型助力铁路工人安全作业[Gradio版本发布!] - 游乐网](https://www.youleyou.com/uploadfile/2025/0716/20250716061648232.webp)
具体来说:
利用骨干网络最后三个阶段{S3、S4、S5}的输出特征作为编码器的输入;设计了一个高效的混合编码器通过解耦尺度内交互(AIFI)和跨尺度融合模块(CCFM)来高效处理多尺度特征转换为一系列图像特征;采用IoU感知的查询选择机制来选择固定数量的图像特征以优化解码器查询的初始化;带有辅助预测头的解码器迭代地优化对象查询以生成方框和置信度分数。最新数据如下:
![RT-DETR:全新ViT系列模型助力铁路工人安全作业[Gradio版本发布!] - 游乐网](https://www.youleyou.com/uploadfile/2025/0716/20250716061648330.webp)
backbone:飞桨团队采用了经典的 ResNet 和可缩放的 HGNetv2 两种,使用两种 backbone 各训练了两个版本的 RT-DETR ,以 HGNetv2 为 backbone 的 RT-DETR 包括 L 和 X 版本,以 ResNet 为 backbone 的 RT-DETR 则包括 RT-DETR-R50 和 RT-DETR-R101 。 RT-DETR-R50 / 101 方便和现有的 DETR 变体进行对比,而 RT-DETR-L / X 则用来和现有的实时检测器( YOLO 系列模型)进行对比。
Neck:现有的多尺度 Transformer 编码器在多个尺度的特征之间进行注意力运算,同时进行尺度内和尺度间特征交互,计算消耗较大。为了减少计算消耗,一个简单的办法是直接削减编码器层数。但是飞桨团队认为这并不能从根本上解决问题并且势必会对精度造成较大影响,更本质的方法应该是要解耦这种尺度内和尺度间的同时交互,缩短输入编码器的序列长度。为此,飞桨团队设计了一系列编码器变体来验证解耦尺度内和尺度间特征交互的可行性并最终演化为 HybridEncoder ,其包括两部分:Attention-based Intra-scale Feature Interaction (AIFI) 和 CNN-based Cross-scale Feature-fusion Module (CCFM) 。
Decoder & Head:DETR 架构有两个关键组件: Query Selection 和 Decoder 。Query Selection 的作用是从 Encoder 输出的特征序列中选择固定数量的特征作为 object queries ,其经过 Decoder 后由预测头映射为置信度和边界框。现有的 DETR 变体都是利用这些特征的分类分数直接选择 top-K 特征。然而,由于分类分数和 IoU 分数的分布存在不一致,分类得分高的预测框并不一定是和 GT 最接近的框,这导致高分类分数低 IoU 的框会被选中,而低分类分数高 IoU 的框会被丢弃,这将会损害检测器的性能。为解决这一问题,飞桨团队提出了 IoU-aware Query Selection ,通过在训练期间约束检测器对高 IoU 的特征产生高分类分数,对低 IoU 的特征产生低分类分数。从而使得模型根据分类分数选择的 top-K 特征对应的预测框同时具有高分类分数和高 IoU 分数。对于 Decoder ,飞桨团队并没有对其结构进行调整,目的是为了方便使用高精度的 DETR 的大检测模型对轻量级 DETR 检测器进行蒸馏。
数据增强和训练策略:数据增强采用的是基础的随机颜色抖动、随机翻转、裁剪和 Resize ,并且在验证和推理时图像的输入尺寸统一为 640 ,与 DETR 系列的处理方式有较大的不同,主要是为了满足实时性的要求。训练策略则是和 DETR 系列基本相同,优化器同样采用 AdamW ,默认在 COCO train2017 上训练 6x ,即 72 个 epoch 。
相关攻略
编辑 | 王凤枝OpenAI想把电脑桌面“包圆”了。在海外,很多人平时的办公状态大概是这样的,开着网页版ChatGPT问问题,切到其他页面去搜资料,然后再打开代码编辑器或者文档开始干活。但就在3月1
文 | 惊蛰研究所,作者 | 娅沁“8人名额仅剩最后几位”“微信二维码仅保留30秒,先到先得”,在刻意营造的紧迫氛围下,京莫迅速支付100元定金,锁定了一个总价5980元的Python小班课程名额,
不懂如何定义工作流的“小白”,装龙虾只是自寻烦恼。文|《中国企业家》记者 闫俊文见习编辑|李原编辑|何伊凡头图来源|视觉中国2026年开年,养“龙虾(OpenClaw)”热潮愈演愈烈,但一边有人“抢
机器之心编辑部最近,市面上的 “龙虾”(Claw 系列智能体)多到离谱。从本地到云端,从插件到独立系统,形态各异。但繁荣背后,一个尴尬的现状正在蔓延:龙虾越来越强,却越来越难 “下锅”有的只认 Ma
如果你有一块 NVIDIA GPU,睡前启动一个脚本,第二天早上醒来就能收获一百次 LLM 训练实验的结果,其中一部分还确实比你手动调参调得更好,是不是听起来有些难以置信?但这就是 Andrej K
热门专题
热门推荐
3月28日消息,中国联通近日发布2025年度业绩报告,在网络建设领域交出亮眼答卷。中国联通表示,公司持续落实信号升格、宽带升级相关举措,目前近九成宽带已具备千兆接入能力,万兆光网更在全国100多个城
163邮箱个人版登录入口为https: mail 163 com,支持网页及手机浏览器直接访问,提供手机号、邮箱账号、扫码三种登录方式,界面简洁,功能齐全,适配多终端使用。163
在冒泡社区中,设置键盘能为用户带来更便捷、舒适的操作体验。以下是详细的设置方法。首先,打开冒泡社区应用程序。进入社区主界面后,找到屏幕上的设置选项。这通常可以在界面的某个角落,以一
一场谎言的终幕是崩坏星穹铁道中4 1版本的新光锥之一,其属性可以提高装备的暴击率,下面小编就为大家带来《崩坏:星穹铁道》一场谎言的终幕光锥效果一览,不清楚的一起来看看吧。《崩坏:星
2026年3月28日中午12时整,由腾讯视频全网独播的古装奇幻剧《白日提灯》准时上线。该剧开播前预约人数高达674万人次,被平台力推为“年度古偶扛鼎之作”,然而仅播出六小时后,口碑便急速崩塌,引发全

![RT-DETR:全新ViT系列模型助力铁路工人安全作业[Gradio版本发布!] - 游乐网](https://www.youleyou.com/uploadfile/2025/0716/20250716061648747.webp)




