人体姿态估计:基于飞桨复现Hourglass
本文基于飞桨复现Hourglass网络用于人体姿态估计,该网络通过多尺度特征融合输出关节概率热力图。在MPII数据集上,256x256和384x384尺寸下Mean@0.1分别达0.321、0.376,接近PyTorch版本,可用于动作识别等领域。

人体姿态估计:基于飞桨复现Hourglass
1.简介
本项目基于PaddlePaddle复现《Stacked Hourglass Networks for Human Pose Estimation》论文,该论文提出了一种人体姿态估计的方法,在MPII数据集上达到如下精度:
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
本文介绍了一种新的用于人体姿态估计的卷积网络结构。所有尺度上进行特征的处理和融合,做优地捕捉与身体相关的各种空间关系。
人体姿态估计可以应用在很多领域:
1.动作识别,可以检测一个人是否摔倒或疾病,也可以用于健身、体育舞蹈等教学任务。
2.运动捕捉,可以通过人体姿态的估计,在计算机上渲染图形,例如电影特效。
3.训练机器人,可以让机器人跟随一个做特定动作的人体骨架。
2.模型介绍
Hourglass网络采用沙漏形状的设计是为了在每个尺度上捕捉信息。而本地证据对于识别人脸和手等特征至关重要。最终的姿势估计需要对整个身体有一个连贯的理解。人的方位、四肢的排列以及相邻关节的关系都是在图像中不同镜头下最容易识别的众多线索之一。Hourglass是一个简单的,最小的设计,有能力捕捉所有这些功能,并将它们结合起来输出像素级的预测。网络必须有某种机制来有效地处理和巩固跨尺度的数据特征。Hourglass网络选择使用带有跳过层的单一管道来保留每个分辨率下的空间信息。该网络的最低分辨率为4x4像素,允许应用更小的空间过滤器来比较整个图像空间的特征。Hourglass的设置如下:卷积和最大池化层用于处理低分辨率的特征,在每一个最大池化,网络分支,应用更多的卷积在已经做过池化操作的分辨率上。在达到最低分辨率后,网络开始自顶向下的上采样序列和跨尺度的特征组合。为了将两个相邻分辨率的信息聚合在一起,我们遵循Tompson等人所描述的过程,对较低分辨率进行最近邻上采样,然后对两组特征进行元素相加。Hourglass的拓扑结构是对称的,所以每向下呈现一层,就有相应向上的一层。在达到网络的输出分辨率后,使用两轮连续的1x1卷积来产生最终的网络预测结果。网络的输出是一组heatmap,对于给定的heatmap,网络预测各个关节在每个像素上存在的概率。
整个Hourglass 网络有多个Hourglass模块组成,允许重复的自底向上,自顶向下的推理预测
下图是一个Hourglass的单个模块,在整个Hourglass网络中,特征的数量是一致的
上图中的每一个方块都对应了一个redisdual模块,如下图所示
3.数据集下载
MPII:https://aistudio.baidu.com/aistudio/datasetdetail/107551
数据集解压。
In [1]%cd /home/aistudio/data/!tar xvf data107551/mpii.tar.gz登录后复制
4.环境
PaddlePaddle == 2.1.2
python == 3.7
5. 训练
训练图像尺寸为256的模型。
In [4]%cd /home/aistudio/paddle_pose/!python -u train.py --dataset_root /home/aistudio/data/mpii/ --image_size 256登录后复制
/home/aistudio/paddle_pose=> num_images: 14679=> load 22246 samples=> num_images: 2729=> load 2958 samplesW0927 11:25:46.927978 383 device_context.cc:404] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 10.1, Runtime API Version: 10.1W0927 11:25:46.931859 383 device_context.cc:422] device: 0, cuDNN Version: 7.6.登录后复制
训练图像尺寸为384的模型。
In [ ]%cd /home/aistudio/paddle_pose/!python -u train.py --dataset_root /home/aistudio/data/mpii/ --image_size 384登录后复制
--image_size 指定训练出入的图片分辨率,根据验收指标这里可以输入256或384。
--dataset_root 为数据集根目录,可以根据实际情况修改。
6.验证模型
1.预训练模型下载地址:
链接: https://pan.baidu.com/s/13urfrTeJueuXhn4MHcrQcw
提取码: w82w
2.下载模型后使用,下列命令验证模型。
验证图片为尺寸为256x256的模型:
In [ ]!python val.py --image_size 256 --pretrained_model ./output/256_best_model/model.pdparams --dataset_root /home/aistudio/data/mpii/登录后复制
验证结果:
[EVAL] Ankle=79.87761299600484 Elbow=89.09163062349077 Head=96.65757162346522 Hip=88.41959160211289 Knee=83.8608487080676 Mean=88.71714806141036 Mean@0.1=32.10772823107419 Shoulder=95.36345108695652 Wrist=83.77702302257738登录后复制
验证图片为尺寸为384x384的模型:
In [ ]!python val.py --image_size 384 --pretrained_model ./output/384_best_model/model.pdparams --dataset_root /home/aistudio/data/mpii/登录后复制
验证结果:
[EVAL] Ankle=80.86913738917394 Elbow=89.89274782636988 Head=96.8281036834925 Hip=87.81370184355791 Knee=84.62623196807967 Mean=89.13869372885766 Mean@0.1=37.58782180867529 Shoulder=95.44836956521739 Wrist=84.889784060021登录后复制
--image_size 指定训练出入的图片分辨率,根据验收指标这里可以输入256或384。
--pretrained_model 指定训练好的模型地址,可以根据实际情况修改。
--dataset_root 为数据集根目录,可以根据实际情况修改。
7.总结
以下表格是本次论文复现的结果。
相关攻略
Pywinrm 通过Windows远程管理(WinRM)协议,让Python能够像操作本地一样执行远程Windows命令,真正打通了跨平台管理的最后一公里。 在混合IT环境中,Linux机器管理Wi
早些时候,聊过 Python 领域那场惊心动魄的供应链攻击。当时我就感叹,虽然我们 JavaScript 开发者对这类套路烂熟于心,但亲眼目睹这种规模的“投毒”还是头一次。 早些时候,聊过 Pyth
Toga 是 BeeWare 家族的核心成员,号称“写一次,跑遍所有平台”,而且用的是系统原生控件,不是那种一看就是网页套壳的界面 。 写了这么多年 Python,你是不是也想过:要是能一套代码跑
异常处理的核心:让错误在正确的地方被有效处理。正确的地方,就是别在底层就把异常吞了,也别在顶层还抛裸奔的 Exception。 异常处理写得好,半夜不用起来改 bug。1 你是不是也这么干过?tr
1 Skills机制概述 提起OpenClaw的Skills机制,不少人可能会把它想象成传统意义上的可执行插件。其实,它的内涵要更精妙一些。 简单说,Skills本质上是一套基于提示驱动的能力扩展机制。它并不是一个可以独立“跑”起来的程序模块,而是通过一份结构化描述文件(核心就是那个SKILL m
热门专题
热门推荐
加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这
微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿
稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D
基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一
PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票





