基于ImageNet预训练的DenseNet神经网络架构_AI热点日报

基于ImageNet预训练的DenseNet神经网络架构

类型：热点整理2026-06-30

聊到自动驾驶汽车，有个绕不开的硬伤：激光雷达的成本，至今仍比某些低档车本身还要贵。维护它、处理它的输出数据，既耗费资金又让人头疼。这样一来，想把激光雷达直接应用于量产车型，确实不太现实。不过话说回来，激光雷达在计算“深度”信息方面，精度确实无可挑剔。深度信息对无人驾驶来说有多重要？路径规划、与障碍

聊到自动驾驶汽车，有个绕不开的硬伤：激光雷达的成本，至今仍比某些低档车本身还要贵。维护它、处理它的输出数据，既耗费资金又让人头疼。这样一来，想把激光雷达直接应用于量产车型，确实不太现实。

神经网络架构是在ImageNet数据集上训练的预训练DenseNet模型

不过话说回来，激光雷达在计算“深度”信息方面，精度确实无可挑剔。深度信息对无人驾驶来说有多重要？路径规划、与障碍物保持安全距离，全都依赖它。所以理论上，激光雷达简直是自动驾驶的标配。可惜，还是那个字：贵！

早些年，高射程激光雷达的单价能到7.5万美元。好在业界一直在砸钱攻关降成本。Alphabet旗下的Waymo经过大量研究，硬是把成本砍掉了90%——这可不是小数目。

激光雷达的维护和数据处理依然昂贵且麻烦。更糟的是，碰上大雾、暴雨这类恶劣天气，激光雷达输出的点云会带大量噪点，直接导致数据不准。这就让它在商业化量产中的处境更加尴尬。

即便如此，各大公司依然值得在激光雷达和点云处理这条路上继续投入。毕竟，谁说得准呢？说不定哪天激光雷达就真便宜下来了。

相比之下，摄像头在捕捉场景的高分辨率细节上表现抢眼。但问题也很明显——它没法像激光雷达那样直接给出“深度信息”。你看，世界上到处是这种二选一的局面。摄像头输出的是高分辨率平面图像，但想从单张2D图直接挖掘出深度，几乎不可能。当然，立体视觉这条路径可以尝试：把两个放在同一水平线、相隔一定距离的摄像头拍到的图像拿来，用计算机视觉算法估算深度。

计算机视觉文献里有一堆立体深度估计算法，但实话实说，没有哪一个能同时做到三件事：实时处理、高精度、全自动。一个都没实现。

人类就不一样了，靠两只眼睛的立体视觉，甚至单眼都能很好地估计深度。哪怕闭上一边眼睛，对深度的判断仍然过得去。我们到底是不是“学会”了感知深度？这个问题没人能真正回答。但换个角度，深度估计完全可以当作一个学习问题来处理。那么问题来了：用学习得到的“够用”的深度，能解决自动驾驶问题吗？

近几年有不少论文把单目深度估计当作学习任务来攻关。大致分几路：

1．监督深度估计

“监督”学习的思路很直白：收集RGB图像和对应的深度图，然后训练一个类似“自动编码器”的结构来做深度估计。当然，实际操作没那么简单——如果不加一些特殊技巧，全卷积网络（FCN）很难真正跑通。缺点是，在现实里收集深度图比登天还难，成本极高。不过，可以用激光雷达的数据来训练这类网络。这么一来，神经网络的性能虽然不会超过激光雷达的精度，但已经够用了——你不需要知道树上每片叶子距离车的精确值，差几厘米对驾驶来说没影响。

2．无监督深度估计

光是在一系列环境里标好高质量的深度数据，本身就是个头疼的问题。无监督方法就牛了：它不需要真实深度图，也能学出深度。做法很简单——只看未标注的视频，找到一种方式生成深度图，判断的标准不是“绝对正确”，而是“保持一致性”。

3．神经网络架构

这类网络的结构类似U-Net：编码器部分用的是在ImageNet上预训练好的DenseNet模型；解码器部分则用双线性上采样，而不是简单的上采样。为什么用双线性？因为它上采样后的整体图像更“平滑”。输出的深度图尺寸是输入图像的一半，这么做能让网络学得更快。

4．图像增强

为了提升泛化能力，可以搞各种图像增强：图像翻转、打乱输入图像的色彩通道、加噪、调整对比度、亮度、色温等等。这些手段让模型在整个训练过程中持续看到新数据，对未见过的场景也能更好地适应。

目前，深度估计在AR/VR领域已经有不少落地应用。自动驾驶这边，故事还在继续。

来源：https://m.elecfans.com/article/1260620.html

自动驾驶

延伸阅读

补充最近整理过的热点入口。