北京理工大学贾云得教授研究组提出的立体匹配新方法着重于成本聚合问题,在 KITTI 和 Scene Flow 基准测试中超越了此前业内的最佳水平。本文已提交今年 2 月举行的 AAAI 2018 大会,并成为 Spotlight poster 论文。
立体匹配(Stereo matching)是计算机视觉社区研究的一个基础问题。立体匹配的研究目标是计算由立体照相机收集的图像的视差图(disparity map)。这种视差图在 3D 场景重建、机器人、自动驾驶领域都有普遍的应用。随着大规模数据集的出现、计算力的快速发展,深度神经网络经验证在立体匹配中有所成效。目前,许多顶尖的方法通过学习稳健地局部特征或者相似性测量作为成本计算来提升表现((Zbontar and LeCun 2015; Luo, Schwing, and Urtasun 2016; Shaked and Wolf 2016)。然而,这些方法在少纹理区域和遮挡边界区域问题上仍有很大的困难,这主要是因为在成本计算过程中看到的视野受限。
为了处理成本计算结果的不匹配值(成本体积),成本聚合在传统的立体匹配方法中是不可或缺的。成本聚合应用于成本体积,用于改正聚合匹配成本时出现的不匹配值。它通常是通过在一个支持区域中的常数差异上加和或平均匹配成本完成的(Yang 2012;Min,Lu and Do 2011;Tombari et al. 2008)。然而,传统的成本聚合方法受到浅层手工设计的限制,无法进行聚合。它们无法在保持局部适值的情况下有效形成全局引导。在本论文中,北京理工大学的研究人员提出了一种基于学习的成本聚合方法,可在全局视野和局部适值之间做出有效平衡,其方法使用了全新的双流束神经网络。
本论文提出的成本聚合能够以端到端的形式整合其他深度立体匹配流程,因为它是以整个网络子架构的形式构建的。通过基于学习的成本聚合,立体匹配流程的端到端训练不仅可以学习成本计算的特征和相似性,也可以表现为成本聚合。成本聚合过程被重述为一个生成潜在成本聚合结果(提出建议,选择其中最佳)的学习机制。因此,基于学习的成本聚合由双流束网络执行:一个流用于生成建议,另一个流用于评估建议。第一个流根据成本体积(由成本计算算出)计算出的潜在聚合结果得出局部适值。生成是通过卷积操作沿着成本体积的三个维度来执行的,其中结合了空间和深度上的信息。第二个流通过评估每个建议来为成本聚合带来全局视角引导,这个过程是通过轻卷积网络将低阶结构信息作为建议的评估标准来获得的。由于结构信息只包含独立于深度的 2D 信息,因此引导(guidance)的深度维度不变。因此,对每个建议的不同评估遵循相同的引导。在对每个建议评估之后,模型使用胜者通吃策略来选出最佳聚合值,形成聚合成本值。
研究人员提出的架构在 Scene Flow(Mayer 等人,2016)和 KITTI 基准测试上(Menze & Geiger,2015;Geiger,Lenz and Urtasun,2012)展示了很高的准确度。该研究主要贡献为以下三点。
该研究是第一个在基于学习的立体匹配方案中明确对成本聚合建模的方法。研究人员使用生成学习过程重新形式化成本聚合,并让算法在成本聚合建议中选择。
研究人员提出了一种全新的双流束网络来生成和选择成本聚合建议。这种双流束网络保留了丰富的语义信息,同时带来了低级结构信息,证明了将高级特征与低级特征融合的能力。
新提出的基于学习的成本聚合是端到端可训练的深度立体匹配流程子架构。它适合于没有成本聚合的流程,进一步提升了准确率。
论文链接:https://arxiv.org/abs/1801.04065