3D目标检测之图像深度转为伪雷达信号：Pseudo-LiDAR from Visual Depth Estimation --by leona

时间：2019-08-28 19:58:42 阅读：293 评论：0 收藏：0 [点我收藏+]

题目：Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving（自动驾驶）

作者：Yan Wang, Wei-Lun Chao, Divyansh Garg, Bharath Hariharan, Mark Campbell, Kilian Q. Weinberger
论文链接：https://arxiv.org/abs/1812.07179
项目链接：https://mileyan.github.io/pseudo_lidar/
代码链接：https://github.com/mileyan/pseudo_lidar

1）核心观点：基于视觉得深度检测效果不好，很大程度上是因为数据的表达形式，也就是格式选择不对。（这篇的角度很新颖很奇特，因为还是网上没什么参考资料，就又自己强行翻译理解了）

2）使用雷达$相机做3D车辆检测的优缺点与区别：

雷达：

贵；通过64路或者128路旋转激光束提供稀疏的深度数据。
使用单一传感器存在很大的风险，比如雷达不适用的环境，或者雷达因为其他原因不可用；此外，如果可以多传感器协同工作的话，精度和效率或许可以有更大提升。
数据用3D点云表示，或者从bird‘s eye view观察（这种方式可以避免在正面图像中远处物体尺寸特别小的问题，因此几乎为线性误差），在这两种情况下，目标的形状和尺寸都不受深度影响。

相机图像：

基于图像和基于雷达的3D检测，在思路上的主要区别（存在个人理解，存疑）：

3）本文算法：

　　思路：

1. 通过视觉深度估计方法从单目相机或双目相机的图像中估计深度，
2. 将得到的像素深度反投影为3D点云，得到Pseudo-LiDAR数据，
3. 最后用基于LiDAR的检测算测做检测。

　　流程图：

技术分享图片

　　深度估计：本文算法与深度估计部分无关，这里可用单目深度估计或者双目深度估计，本文采用双目深度。

　　双目深度估计输入一对左右图像I_l，I_r，输出与任意一图像大小相同的视差图Y（disparity map）。本文假设左图为参考图像，并在Y矩阵中存每个像素相对于右图的水平视差。由下式得到深度图：（其中f_U为左图的水平方向的焦距）

技术分享图片

生成Pseudo-LiDAR数据：

　　在左图的相机坐标系中为每个像素(u,v)反投影的到3D坐标(x,y,z)：（(c_U,c_V)是相对与相机中心的像素位置，f_V是垂直焦距）。将所有的像素点都反投影到3D坐标，得到3D点云{(x⁽ⁿ⁾,y⁽ⁿ⁾,z⁽ⁿ⁾)}^N_n=1(N为像素数目）。

技术分享图片

LiDAR vs. pseudo-LiDAR：因为后续是要和雷达信号做对比，这里对伪雷达信号做了些额外的处理：

由于真实雷达信号只存在于一定的高度范围内，这里只保留雷达源（就是KITTI雷达的位置，车顶）上方1m内的雷达信号，去掉的部分通常不存在自动驾驶场景感兴趣的目标（车辆、行人）；
雷达信号通常会包含每个测量像素的反射率（给出数值0或者1），但是图像无法的到这个数据，就全部简单粗暴设置为1。
从图中可以看出，伪雷达数据和真实雷达数据对应比较好（这个地方我不太会看，这个黄色点点怎么就和蓝色点点对准了啊），但是伪雷达数据是稠密的，雷达虽然在一幅图像上可以采集到和图像像素同量级的数据（超过10w点），但由于雷达只有64或者128路激光束，所以雷达数据点是稀疏的。

技术分享图片