自动驾驶计算机视觉研究综述:难题、数据集与前沿成果(附页论文下载)

核心提示选自arXiv机器之心编译参与:李亚洲、微胖、黄小天、蒋思源近日,德国马克斯普朗克智能系统研究所的自动驾驶视觉组联合苏黎世联邦理工学院计算机视觉与几何组发表了一篇 67 页的论文,介绍用于自动驾驶的计算机视觉方面的研究,从自动驾驶的历史开始

选自《arXiv机器之心》汇编:、、黄、蒋思远。

近日,德国马克斯·普朗克智能系统研究所的自动驾驶视觉小组与苏黎世联邦理工学院的计算机视觉和几何小组共同发表了一篇67页的论文,介绍了自动驾驶的计算机视觉研究。从自动驾驶仪的历史出发,讨论了数据集和基准、摄像机模型和标定、目标识别和跟踪等方面的难点问题和前沿研究成果。本文对本文进行了简单介绍,由于篇幅过长,机器之心只介绍了文章的结构和导读的内容。想进一步了解的读者可以点击https://arxiv.org/pdf/1704.05519.pdf.另外,为了方便阅读,作者还给出一个交互式在线工具,以图表的形式可视化相关研究的分类,并提供额外的信息和论文链接。项目地址如下。

项目地址:http://www.cvlibs.net/projects/autonomous_vision_survey/

文章的基本结构

前言自动驾驶历史数据集基准相机模型标定表征目标识别语义分离重建动作姿态估计跟踪场景理解端到端学习传感器运动控制结论

摘要

近年来,计算机视觉、机器学习、自动驾驶等人工智能相关领域取得了惊人的进展。但是,和每一个快速发展的领域一样,人工智能领域也存在问题,比如行业内的人跟不上行业的步伐或者行业外的人入不了行。虽然写了几篇专题调查论文,但到目前为止,还没有对自动驾驶计算机视觉的问题、数据集和方法进行全面的调查。本文提供了关于自动驾驶的计算机视觉这一主题的最新调查,以填补这一空空白。我们的调查不仅包括最相关的历史资料,还包括最先进的专业课题,如识别,重建,运动估计,跟踪,场景理解和端到端学习。为了实现这个目标,我们首先将每种方法按分类法进行分类,然后在KITTI、ISPRS、MOT和Cityscapes等几个具有挑战性的基准数据集上分析每种方法的最佳性能。此外,我们还讨论了一些开放的问题和当前的研究挑战。考虑到容易访问和遗漏引用,我们还提供了一个具有主题和方法导航功能的交互平台,为每篇论文提供了附加信息和项目链接。

介绍

自20世纪80年代第一次成功演示以来,自动驾驶汽车领域取得了巨大进展。尽管有这些进步,但人们仍然认为,要实现任何复杂环境下的全自动驾驶导航,还需要几十年的时间。原因有二:第一,运行在复杂动态环境下的自动驾驶系统,需要人工智能来总结不可预测的情况,从而做出实时的推断。其次,信息决策需要准确的感知。目前,现有的计算机视觉系统大多存在一定的错误率,这对于自动驾驶导航来说是不可接受的。

在本论文中,我们重点研究了第二个问题,即自动驾驶视觉,并描述了每种方法的优缺点。其次,我们在几个流行的数据集上分析了一些顶尖成果的性能。特别是,我们给出了一个新的深入的质量分析的KITTI基准,并显示了最容易和最困难的例子的方法提交给平谷服务器。基于这些分析,我们讨论了开放的研究问题和挑战。为了更容易阅读,我们还提供了一个交互式在线工具,它用图像可视化我们的分类,并以简单可用的方式提供额外的信息和链接。通过提供详细的概述,我们希望这项成果可以成为自动驾驶视觉领域研究人员的有用工具,也可以降低新人进入这一领域的门槛。

作者给出的自动驾驶视觉领域的问题分类。在这个交互式工具中,点击这些主题搜索相关论文。

目前还有其他相关研究。Winner等人详细解释了主动安全和驾驶辅助系统,考虑了它们的结构和功能。他们的研究集中在驾驶辅助系统的各个方面,但是关于机器视觉的章节只涉及自动驾驶视觉最基本的概念。Klette概述了基于视觉的驾驶辅助系统。它们描述了高级感知问题的大多数方面,但它们没有像我们一样提供对各种任务的顶级成就的深入评估。

朱等提供了智能车辆环境感知的概述,重点介绍了车道检测、交通信号灯识别和车辆跟踪。这篇论文可以补充我们的研究。但相比之下,我们的目标是通过提供广泛的评论和比较,在机器人、智能汽车、摄影测量和计算机视觉社区之间建立一座桥梁。

1.自动驾驶历史

1.1自动驾驶项目1.2自动驾驶竞赛

2.数据集和基准

数据集通过提供真理问题的特殊例子,在许多研究领域发挥着关键作用。通过提供关于其能力和局限性的核心信息,数据集还可以定量地评估方法。

2.1真实数据集

3D重建数据集、光流数据集、物体识别和分割数据集、跟踪数据集、导航空图像数据集、自动驾驶数据集、长期自动控制数据集

2.2合成数据集

Mpitel飞行椅和UFO游戏引擎

3.摄像机模型和校准

3.1校准3.2全方位摄像机3.3事件摄像机

图4标准CMOS摄像机以固定的帧速率输出图像,运动视觉传感器及时输入峰值事件。每个事件对应于局部的像素级亮度变化。DVS盯着旋转点的输出可视化。彩色圆点用于标记个别事件。不属于螺旋的部分是由传感器噪声引起的。

4.特性描述

图Pfeiffer Franke的多层Stixel世界表示。这个场景被切割成称为Stixels的平面部分。与Badino等人的Stixel World相反,它可以在单个图像列中的多个深度位置定位目标。颜色代表与障碍物的距离,红色代表接近,绿色代表距离。

3D图元

5.目标识别

传感器标准流程

图6:用于样本检测的可变形零件模型。该模型由Felzenszwalb等人提出,包括一个或多个DPM的高分辨率模型,以及用于限制每个部分的位置的空间星座模型。

分类

5.1 2D目标检测

图7:7:蔡等人提出的建议子网络,在多个输出层进行识别,并与不同尺度的目标进行匹配。它可以综合特定尺度的检测器,生成功能强大的多尺度目标检测器。

图8:8提出的网络:陈等综合了来自鸟瞰、LiDAR点云前视图和RGB的分区特征作为深度融合网络的输入。

5.2根据2D图像的建筑物3D对象检测5.3根据3D点云的建筑物3D对象检测5.4行人检测5.5行人姿态估计5.6讨论

图9: Kitti汽车检测与分析。每个部分示出了包含大量真实病例检测和假阴性病例检测、假阴性病例检测和假阴性病例检测结构化CNN。

图13:赵等人提出的方法概述。在CNN的特征图中使用金字塔分析模块,并将其输入卷积层进行像素级估计。

条件随机场

讨论

建议的样本分段不需要建议的样本分段。

6.2.标签传播6.3多帧语义分割6.4 3D数据的语义分割

方法在线3D CNN

6.5街道视图的语义分割

图16: Mathias等人提出了外表面分析的三层解决方案。首先,他们分割外表面,并将概率分布作为视觉特征分配给语义类。在下一层,他们使用特定目标的检测器,如门或窗检测器,以提高底层分类器的输出。最后,他们结合弱结构先验,使用基于采样的方法来搜索最优表面标记。

6.6.航空影像的语义分割

图17: Isprs Vaihingen使用Marmanis等人提出的FCN集进行场景语义分割。来自马默尼斯等人。

6.6.1 ISPRS Split拆分挑战

6.7道路分段

6.7.1可用空估算

图18:这张图片来自Pinggera等人,它显示了在lost and found数据集上提出的方法的障碍检测。

7.重建

7.1立体方法

图19:使用目标知识解决立体匹配模糊问题。立体方法通常不能反映在无纹理或半透明的表面上。通过使用对象知识,通过加强对模糊表面的不一致性的识别,可以恢复场景对象的3D几何形状,同时在数量和质量上保持优异的结果。来自Guney Geiger。

图20:立体匹配的深度学习。训练连体网络,提取所有像素可能差异的边缘分布。来自罗等人。

7.2多视图三维重建

图21:KITTI 2015的立体分析。图为KITTI 2015 stereo benchmark上公布的15种最佳立体方法的累积误差。根据Menze Geiger定义的3px/5%标准,红色对应的是大多数方法会造成坏像素的区域,黄色对应的是一些方法失败的区域,透明对应的是所有方法的正确估计。

7.3重建和识别

图22: Haene等人将3D场景重建和分类联系起来。上面一行显示了输入图像及其2D语义分割和深度图的例子。连接优化和分类产生的几何图形如下所示。来自海因等人。

8.锻炼和姿势估计

8.1 2D运动估计-光流8.2 3D运动估计-场景流

图27:场景流。基于图像的场景流的最小设置由两个连续的立体图像对给出。来自门茨盖格律师事务所。

8.3.自我运动估计

图30:Scaramuzza Fraundorfer视觉测距问题图例。Tk,k1转换通过使用两个相邻位置的视觉特征来获得。所有变换的累加服从相对于初始坐标系k = 0的绝对姿态Ck。来自斯卡拉穆扎弗劳恩多弗。

图31:Engel等人提出的立体LSD-SLAM方法可以计算出精确的相机运动和实时的半密集概率深度图。深度可视化使用蓝色表示远处的场景点,红色表示近处的目标。来自恩格尔等人。

8.4.同步定位和合成8.5。配置

9.跟踪

跟踪的目的是在给定传感器测量数据的情况下,实时评估一个或多个目标的状态。典型地,目标的状态由它在某一时刻的位置、速度和加速度来表示。跟踪其他车辆对于自动驾驶任务非常重要。例如,汽车的制动距离随速度和功率而变化。为了防止碰撞,系统需要提前做出反应。其他车辆的轨迹足以预测停车位置和可能的碰撞。

在自行车和行人的情况下,更难预测未来的行为,因为他们可能会突然改变方向。但是,结合其他车辆的分类进行跟踪可以在这种情况下调整汽车的速度。此外,跟踪其他车辆可以用于自动距离控制,可以提前预测其他车辆可能的变化。

9.1立体跟踪9.2行人跟踪9.3主要成就9.4讨论

10.场景理解

自动驾驶的一个基本要求是充分了解其周围环境,比如复杂的交通场景。户外场景理解的复杂任务包括几个子任务,例如深度估计、场景分类、目标检测和跟踪、事件分类等等,其中每个子任务描述场景的特定方面。将这些具体的方面结合起来,利用场景不同元素之间的关系,获得整体的理解是有益的。大多数场景理解模型的目标是获得场景的丰富而紧凑的表示,其中包含所有元素,如布局元素、交通参与者及其关系。与2D图像域中的推理相比,三维推理在解决几何场景理解问题中发挥着重要作用,并促进场景以三维对象模型、布局元素和遮挡关系的形式产生更多的信息表征。场景理解的一个特殊挑战是城市和郊区交通场景的解释。与高速公路和乡村道路相比,城市场景包含许多独立移动的交通参与者,道路和交叉口的几何布局具有更多可变性,以及由模糊的视觉特征和光线变化导致的难度升级。

从单幅图像到视频的目标检测与跟踪相结合

图41: Wojek等人概述了具有显式遮挡推理的组合目标检测和跟踪系统。改编自Wojek等人。

其他陈述

1.传感器运动控制的端到端学习

目前,最先进的自动驾驶方法包括大量的模型,如检测,分割,运动估计,跟踪交通参与者和重建。然后,根据控制系统的规则组合这些组件的结果。但要解决控制汽车方向和速度的问题,还需要稳步解决场景理解中的许多开放性问题。最近的文献提出了几种端到端的自动驾驶方法作为替代方案。端到端驾驶使用一个独立的系统,直接从感官输入映射到驾驶操作。

结论

本文对自动驾驶计算机视觉的问题、数据集和方法进行了综述。为了实现这一目标,我们的调查涵盖了最相关的历史资料,以及最先进的专业课题,如识别、重建、运动估计、跟踪、场景理解和端到端学习。通过使用KITTI benchmark的新的深入质量分析并考虑其他数据集,我们还讨论了这些主题下的开放问题和当前的研究挑战。我们的交互式在线工具平台利用图形可视化对方法进行分类,以便您可以轻松浏览调查的文献。未来,我们计划在这个互动平台上更新相关文献,以提供该领域的实时概述。我们希望调查和工具平台可以进一步激发新的研究,并通过这一详细的概述使初学者更容易进入这一领域。

 
友情链接
鄂ICP备19019357号-22