游乐游手机版
首页/AI热点日报/热点详情

基于ImageNet预训练的DenseNet神经网络架构

类型:热点整理2026-06-30
聊到自动驾驶汽车,有个绕不开的硬伤:激光雷达的成本,至今仍比某些低档车本身还要贵。维护它、处理它的输出数据,既耗费资金又让人头疼。这样一来,想把激光雷达直接应用于量产车型,确实不太现实。 不过话说回来,激光雷达在计算“深度”信息方面,精度确实无可挑剔。深度信息对无人驾驶来说有多重要?路径规划、与障碍

聊到自动驾驶汽车,有个绕不开的硬伤:激光雷达的成本,至今仍比某些低档车本身还要贵。维护它、处理它的输出数据,既耗费资金又让人头疼。这样一来,想把激光雷达直接应用于量产车型,确实不太现实。

神经网络架构是在ImageNet数据集上训练的预训练DenseNet模型

不过话说回来,激光雷达在计算“深度”信息方面,精度确实无可挑剔。深度信息对无人驾驶来说有多重要?路径规划、与障碍物保持安全距离,全都依赖它。所以理论上,激光雷达简直是自动驾驶的标配。可惜,还是那个字:贵!

早些年,高射程激光雷达的单价能到7.5万美元。好在业界一直在砸钱攻关降成本。Alphabet旗下的Waymo经过大量研究,硬是把成本砍掉了90%——这可不是小数目。

激光雷达的维护和数据处理依然昂贵且麻烦。更糟的是,碰上大雾、暴雨这类恶劣天气,激光雷达输出的点云会带大量噪点,直接导致数据不准。这就让它在商业化量产中的处境更加尴尬。

即便如此,各大公司依然值得在激光雷达和点云处理这条路上继续投入。毕竟,谁说得准呢?说不定哪天激光雷达就真便宜下来了。

相比之下,摄像头在捕捉场景的高分辨率细节上表现抢眼。但问题也很明显——它没法像激光雷达那样直接给出“深度信息”。你看,世界上到处是这种二选一的局面。摄像头输出的是高分辨率平面图像,但想从单张2D图直接挖掘出深度,几乎不可能。当然,立体视觉这条路径可以尝试:把两个放在同一水平线、相隔一定距离的摄像头拍到的图像拿来,用计算机视觉算法估算深度。

计算机视觉文献里有一堆立体深度估计算法,但实话实说,没有哪一个能同时做到三件事:实时处理、高精度、全自动。一个都没实现。

人类就不一样了,靠两只眼睛的立体视觉,甚至单眼都能很好地估计深度。哪怕闭上一边眼睛,对深度的判断仍然过得去。我们到底是不是“学会”了感知深度?这个问题没人能真正回答。但换个角度,深度估计完全可以当作一个学习问题来处理。那么问题来了:用学习得到的“够用”的深度,能解决自动驾驶问题吗?

近几年有不少论文把单目深度估计当作学习任务来攻关。大致分几路:

1.监督深度估计

“监督”学习的思路很直白:收集RGB图像和对应的深度图,然后训练一个类似“自动编码器”的结构来做深度估计。当然,实际操作没那么简单——如果不加一些特殊技巧,全卷积网络(FCN)很难真正跑通。缺点是,在现实里收集深度图比登天还难,成本极高。不过,可以用激光雷达的数据来训练这类网络。这么一来,神经网络的性能虽然不会超过激光雷达的精度,但已经够用了——你不需要知道树上每片叶子距离车的精确值,差几厘米对驾驶来说没影响。

2.无监督深度估计

光是在一系列环境里标好高质量的深度数据,本身就是个头疼的问题。无监督方法就牛了:它不需要真实深度图,也能学出深度。做法很简单——只看未标注的视频,找到一种方式生成深度图,判断的标准不是“绝对正确”,而是“保持一致性”。

3.神经网络架构

这类网络的结构类似U-Net:编码器部分用的是在ImageNet上预训练好的DenseNet模型;解码器部分则用双线性上采样,而不是简单的上采样。为什么用双线性?因为它上采样后的整体图像更“平滑”。输出的深度图尺寸是输入图像的一半,这么做能让网络学得更快。

4.图像增强

为了提升泛化能力,可以搞各种图像增强:图像翻转、打乱输入图像的色彩通道、加噪、调整对比度、亮度、色温等等。这些手段让模型在整个训练过程中持续看到新数据,对未见过的场景也能更好地适应。

目前,深度估计在AR/VR领域已经有不少落地应用。自动驾驶这边,故事还在继续。

来源:https://m.elecfans.com/article/1260620.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。