DepthInSpace：多帧影像信息在单目结构光深度估计中的应用（ICCV2021）

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者‖ flow，3D视觉开发者社区签约作者，毕业于中国科学院大学，人工智能领域优质创作者。

编辑‖ 3D视觉开发者社区

导语：本文作者提出利用多帧影像可辅助单目结构光训练，在资源有限的情况下，可使用融合的视差图调整单帧视差估计网络。希望能对基于深度学习的单目结构光估计相关研究人员有一定参考帮助。

DepthInSpace: Exploitation and Fusion of Multiple Video Frames for Structured-Light Depth Estimation

论文地址：

https://paperswithcode.com/paper/depthinspace-exploitation-and-fusion-of

附件链接：https://openaccess.thecvf.com/content/ICCV2021/supplemental/Johari_DepthInSpace_Exploitation_and_ICCV_2021_supplemental.pdf

数据链接：

https://www.idiap.ch/paper/depthinspace（注：尽管论文提供了所谓的数据链接，但目前暂未更新。）

0. 概述

我们知道，带有结构光相机的深度传感器，普遍配备的是传统的算法，比如说kinect v1采用的块匹配算法，Intel RealSense采用的半全局匹配算法。相对来说，深度学习在该领域中的蔓延暂时还是比较少的。

UltraStereo（CVPR 2017）通过对影像块进行二值编码，来实现低复杂度的匹配机制；HyperDepth（CVPR 2016）将深度估计问题视作分类问题，进而通过机器学习的方式，具体来说是级联的随机森林对其进行求解，然而，HyperDepth获取GT的方式是：从高精度的传感器中获取，或者从其他的立体匹配方法获得，换句话说，HyperDepth使用的是有监督的方式。至于connecting the dots（CVPR 2019），则应用了ActiveStereoNet（ECCV 2018）中的光度损失函数，并提出了一个边缘检测的网络来应对edge-fattening问题。

该文在connecting the dots的基础上，进一步地做出以下几个贡献：

1.其模组可以采集环境光影像。进而，利用序列环境光影像进行光流预测，从而辅助单目结构光的训练；

2.融合多帧，进而获得边缘更清晰，伪影更少的视差图；

3.在资源有限时，可以使用融合的视差图来finetune单帧的视差估计网络，可以获得非常好的效果。

1.方法

以下将connecting the dots 简称为CTD，该文所提出的DepthInSpace模型简称为DIS。

DIS模型在CTD模型的基础上进行改进。CTD模型使用了两个分离的网络分别用于视差估计以及边缘检测。其中，用于边缘检测的网络，由环境光（ambient）影像（以下将称为泛光图）进行程度较弱的监督。然而，DIS认为，泛光图的抓取非常的简便，而且完全可以起到更大的作用，仅仅用于边缘检测有些浪费信息，为什么不再对其进行充分利用呢？因此，DIS进一步地，利用泛光图来进行光流的预测，从而提供更多的信息。

对于DIS而言，下表为其几个版本的模型简称及说明：

模型简称全称说明 DIS-SF DepthInSpace Single-Frame 见全称 DIS-MF DepthInSpace Multi-Frame 见全称 DIS-FTSF DepthInSpace Fine-Tuned Single-Frame 使用DIS-MF的结果作为伪GT，进而再引入一个损失函数，对DIS-SF进行所谓的finetune。

出于实用性的考虑及个人理解的限制，在本节中，将相对重点介绍DIS-SF的模型结构以及损失函数，着少量笔墨在DIS-MF中。

1.1 DIS-SF

DIS-SF网络具体的模型结构如下：

对于某两帧，不妨设这两帧编号为与，其对应的泛光图以及实时图则分别为，，，设参考散斑为。

在训练过程中，首先，实时图以及将被喂入DispNet，进而得到与其对应的视差图，命名为，。同时，对于两帧泛光图以及，则被喂入用于光流预测的LiteFlowNet。光度损失以及平滑损失将分别作用于单独的影像上。而对于多视角损失，由于其目的是为帧与帧之间施加连续性，因此，多视角损失作用于两帧之间。

在推理过程中，DispNet将接收一张单独的实时图，而后估计出其对应的视差图作为输出。

自监督的网络，往往通过设计精巧的损失函数进行限制，具体来说，DIS整体的损失函数设计为：

我们现标注为视差图, 为输入影像的LCN，为同样做了LCN处理的参考图，从而，更为具体的损失函数说明可见下表：

对于这些损失函数，我们很自然会好奇哪个所起的作用会大些，在DIS提供的附录中，有loss函数的消融实验结果，具体如下表所示：

就数值上来说，不难看出起了非常大的作用。

1.2 DIS-MF

DIS-MF则是将同一个场景下的其他帧的信息转至一帧上，进而更为充分地利用“多视角”的影像信息，得到更为准确的视差。其中，假设每一帧都有对应的初始视差图，而我们融合多帧信息的目的就是优化这些初始的视差图，在这里，初始的视差图可以由DIS-SF模型提供得到。文章认为，融合多帧影像信息的方式对于结构光的这种设定来说，应当是更为有效的，因为结构光深度估计的结果优劣，很大程度上取决于散斑在物体上的呈现。

DIS-MF的具体网络结构如下所示：

对于DIS-MF的训练，直接将其替换DIS-SF中独立的DispNet即可。损失函数与其他训练策略与DIS-SF一致。在DIS-MF中更为具体的公式表达以及fusion block等介绍，推荐读者去精读原文，这里则不做解读。

2. 实验结果

2.1 数据

用于验证模型效果的数据集为三个合成数据集以及一个真实数据集。合成数据集的制作方式与CTD的一致，即基于shapenet模型的仿真，自然，其中的相机模型参数需要调整为与实际的硬件情况一致。

三个合成数据的投影散斑分别为：

1.Kinect 散斑

2.该文的理论散斑

3.真实模组获取的散斑

对于每一组合成数据，均有8192个sequence用于训练，512个sequence用于测试，其中，每一个sequence都包含了同一个场景的4对实时图和泛光图。不同的散斑形状会导致不同的深度表现，通常来说，散斑越密集，深度表现越好。不过在实际情况中，散斑的可选择性却往往受限于硬件。为了验证模型在真实数据上的泛化效果，文章使用真实的模组在4个不同的场景中，抓取了共148个sequence。用于抓取的模组可以通过手动开关投影，进而便捷地获取散斑图与泛光图。在这148个sequence中，划分出130个sequence进行训练，18个sequence用于测试。显然，真实场景不像合成数据一样能够便捷地获取GT，因此文章使用3D 扫描仪对真实场景进行扫描，而后再通过 ICP以及Ball-Pivoting等方式得到3D模型以及相机外参，进而得到GT。

2.2 与其他方法的对比实验

类似于双目视觉的验证指标，在对比试验中也采取bad(x)的指标，只不过更关注亚像素精度，所以主要关注的像素误差为o(0.5)，o(1)等，具体来说，这里所关注的指标为o(0.5)，o(1)，o(2)，o(5)。

相对来说，我们更关注DIS-SF相对于CTD之类的方法的优劣，不难看出，其在真实数据的泛化中更具优势一些，而对于真实数据的泛化，也正是多数研究人员的兴趣所在。个人认为，如果想要走自监督的路线，该篇文章还是有很大的参考意义。

参考文献

[1] Fanello, S. R. , Valentin, J. , Rhemann, C. , Kowdle, A. , & Izadi, S. . (2017). UltraStereo: Efficient Learning-Based Matching for Active Stereo Systems. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE.

[2] Riegler, G. , Liao, Y. , Donne, S. , Koltun, V. , & Geiger, A. . (2019). Connecting the Dots: Learning Representations for Active Monocular Depth Estimation. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE.

[3] Fanello, S. R. , Rhemann, C. , Tankovich, V. , Kowdle, A. , & Izadi, S. . (2016). HyperDepth: Learning Depth from Structured Light Without Matching. Computer Vision & Pattern Recognition. IEEE.

[4] Zhang, Y. , Khamis, S. , Rhemann, C. , Valentin, J. , Kowdle, A. , & Tankovich, V. , et al. (2018). Activestereonet: end-to-end self-supervised learning for active stereo systems.

本文仅做学术分享，如有侵权，请联系删文。

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码) 3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进 4.国内首个面向工业级实战的点云处理课程 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

重磅！3DCVer-学术论文写作投稿交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

DepthInSpace：多帧影像信息在单目结构光深度估计中的应用（ICCV2021）

[ 申请 ]友情链接：