ICCV 2019｜一种基于卷积神经网络的驾驶员和安全带检测的灵活体系结构

作者 | BBuf

下面要介绍的论文始发于ICCV2019，题为「NADS-Net: A Nimble Architecture for Driver and Seat Belt Detection via Convolutional Neural Networks」，axriv地址为：https://arxiv.org/abs/1910.03695 。

在本文中，我们提出了一种新的卷积神经网络（CNN）结构，用于二维驾驶员/乘客姿态估计和安全带检测。与其他通用的姿态估计算法相比，新的结构更加灵活，因此更适合车内检测任务。这种新的结构称为NADS-Net，网络在一个新的数据集上得到验证，该数据集包含为本研究收集的50个驾驶会话中的100个驾驶员的视频片段。还分析了不同人口学、外观和光照条件下的检测性能。本文的研究结果可为自主驾驶研究界和汽车工业提供有意义的见解，为今后的算法开发和数据采集提供参考。

1. 研究背景

全球交通事故报告显示大多数交通事故时由于驾驶员分心引起的。分心驾驶的例子包括使用手机，和乘客对话，喝饮料等与驾驶无关的行为。瞌睡，疲劳，服药等其他一些生理问题也可能导致危及生命的情况。

另一个重大的驾驶安全隐患是不当使用安全带。这可能导致严重的人身伤害和死亡。根据美国国家公路交通安全管理局(NHTSA)的数据，2016年有10428名未系安全带的驾驶员和乘客在道路上葬生。

因此，车载监控系统(IVMS)迅速成为消费类车辆的标准技术，因为它可以通过提醒分心的驾驶员和自适应调整安全机制，在预防和减少交通事故的发生中发挥关键作用。此外，在即将到来的自动驾驶时代，IVMS技术更加关键。例如，当车辆系统在自动驾驶模式下检测到异常时，IVMS可以向驾驶员报警，以便驾驶员可以在系统出现故障时接管车辆的控制权。对于IVMS，基于视觉的传感技术是其核心。在IVMS系统中检测并跟踪了来自脸部，眼睛，头姿势，手势和身体姿势的视觉信息。基于视觉传感技术的目标是识别汽车中人类的各种状态，例如前排乘客的身体姿态以及是否正确系好安全带，这也是本文的主要目标。具体来说，本文提出了一种新的卷积神经网络架构用于驾驶员和乘客的二维姿态估计和安全带检测。NADS-Net以特征金字塔网络FPN作为骨干网络，后面接了关键点检测头，亲和力场检测头和安全带检测头。和SOAT算法[4]相比，该网络表现出了相似的精度，同时更加简洁高效。

2. 相关工作

2.1 人体姿态估计

在自动驾驶领域中，人体姿态估计算法因其不需要任何传感仪器就能捕获人的运动姿态的能力得到了越来越多的关注。现在人体姿态估计方法大概可以分为自上而下和自下而上的方法。

2.1.1 自上而下的方法

自上而下的方法首先检测人的边界框。然后将每个边界框分解为身体关键点和骨骼。[25]使用Faster RCNN首先预测人的边界框，然后利用残差网络预测每个框中的热力图和偏移矢量以定位关键点。何凯明等提出了Mask-RCNN，它在Faster-RCNN的边界框检测头进行扩展，使它支持实例分割和关键点检测。此外，他们将骨干网络改成了FPN，使得准确率和速度都得到了提升。Chen等提出由两个阶段组成的级联金字塔网络(CPN)：GlobalNet和RefineNet。CPN首先检测一个人的边界框，然后将裁剪的边界框传递到GlobalNet，在其中使用FPN主干网络预测关键点。然后，RefineNet完善GlobalNet预测的关键点，进而实现更精确的遮挡或不可见关键点检测。

2.1.2 自下而上的方法

自下而上的方法首先检测所有的人体关键点，然后解析它们的连接和成员关系以构造人的实例。DeepCut是自下而上方法的一个例子，该方法可以检测身体部位以及每个身体部位之间的关系。然后将这些输出用于回归检测到的关键点的位置偏移并连接骨架实例。Newell等介绍了一种可以同时输出关键点位置和逐像素嵌入的方法，将关键点检测结果自动分组为单独的姿势。Cao[4]等提出了部分亲和力字段(PAF)，该字段包含指示如何连接各个关键点的矢量字段。他们使用PAF预测头增强了卷积姿态机算法，并使用了二分图匹配算法贪心的连接骨架实例。

2.2 安全带

基于计算机视觉的安全带检测研究一直在进行。Zhou[39]等将边缘检测算法，显著梯度图和径向基函数组合到一个统一的网络结构中，以判断图像中是否存在安全带。Zhou[38]等使用带BN层的AlexNet来识别安全带。Elihos等提出了一种方法，该方法首先使用SSD裁剪乘客区域，然后用CNN检测是否使用了安全带。本文提出的安全带检测算法试图在检测结果中增加更多的细粒度，以便检测结果不仅能提供安全带是否使用的信息，而且还可以通过安全带相对于检测到的身体的相对位置来进一步反馈。

3. 方法

在本文中，我们提出了新的NADS-Net结构，可以同时进行姿态估计和安全带检测。

3.1 问题概述

通用的姿态估计问题都是在公共数据集例如MS COCO,PoseTrack上进行训练和验证的。但是这些数据一般是在白天和明亮的室内拍摄的，且由于车辆有夜间红外图像，所以姿态估计算法在夜间红外图像上表现也值得怀疑。且关键点是驾驶员和乘客在车内的姿势非常有限，且背景较为简单，人的数量也少，所以较小的浅层模型就可以满足车内驾驶员和乘客的姿态估计。

3.2 数据集

这项研究的主要挑战之一是缺乏适当的数据集。上面提到，一些人体姿态的公开数据集是不适合车辆监控环境的。特别的，我们需要安全带标注样本，人口统计信息，夜间红外图像，在驾驶时处于动态光照变化下的人体姿态和手势。

数据收集我们收集了沃尔沃XC90研究车辆中驾驶员和乘客的视频。这次收集历时7个月，共有100名受试着随机分配到一个汽车驾驶会话中。要求受试者进行某些指定的行为，如玩手机，打哈欠，把手伸出窗户，喝酒等等。我们给汽车配备了红外灯和两个摄像头。其中一个摄像头安装台后视镜下，另外一个安装在中央媒体控制板上。红外灯安装在仪表盘上和遮阳板后面。Figure2展示了设备的安装方式。

Figure 2

统计信息除了驾驶视频之外，我们还收集了如年龄，性别，种族等人口统计信息，这些总结在Table1中。需要注意的是，所有的驾驶场景均由一名研究人员陪同。因此，视频中包含了一些重复出现的研究人员。为了最大程度的减少数据的潜在偏差，研究人员在整个驾驶过程中轮流陪同。根据安全要求，研究人员必须在车辆行驶时坐在前排乘客座椅上，但是当车辆在停车时，他们尽可能地移动到不同的座椅位置，以最大程度地减少数据偏差。此外，要求研究人员每次穿不同的衣服和配件。最后，驾驶路线包括乡村道路，市区和高速公路，以实现背景和照明的多样化。

数据标注对于剪辑视频的每张图像，将所有可见的安全带部分做分割标签，并对可见的身体关键点的坐标(x, y)进行标记。这项研究的研究人员在每次标注人员提交作业时都进行了最终检查，以确保数据的质量。标注结果示例如Figure1所示：

Figure 1

3.3 模型

Figure 3

如Figure3所示，我们的网络模型有三个头，用来生成热力图，PAF图和安全带分割，其中骨干网络是特征金字塔网络。NADS-Net的骨干网络由ResNet-50组成，为后面的检测分支产生金字塔特征。ResNet-50的结构可以产生原始分辨率1/4,1/8,1/16,1/32的特征图。例如对于我们的输入分辨率384*384,ResNet-50骨骼网络产生4层特征金字塔，每层大小分别为96*96，48*48,24*24,12*12。同时特征图的通道数分别为256,512,1024,2048。然后进一步使用1*1卷积将通道数都压缩到256。最后缩减后的特征金字塔再进行两次3*3卷积和上采样(特征图大小为96的不用上采样了)，以生成一个96*96*512的特征图用于三个头完成身体关键点和安全带检测。

每个检测分支使用两个3*3卷积核1*1卷积来预测逐像素概率分布。对于关键点检测头，像素的概率表示该点为关键点的置信度。由于我们对背景遮挡的关节点也有兴趣，所以关键点头会产生10个大小为96*96的特定类概率图，每个概率图都与我们感兴趣的9个关节点以及背景有关。对于PAF头，我们产生尺寸为96*96的矢量场，该矢量场编码了身体关节的成对信息。最后安全带头产生大小为96*96的概率图，代表每个像素为安全带的概率，然后根据阈值产生安全带分割结果。

4. 结果

我们将[4]中的PAF模型作为基准线和我们NADS-Net比较。对于身体关键点的检测精度，我们采用正确关键点概率(PCK)作为标准。在通用的人体姿态估计中，人体头部的PCK(PCKh)被作为PCA的参考。这在图像中人的像素高度急剧变化情况下是合理的。但是，在本文的车载监控任务中，我们发现这种通用方法可能会妨碍模型性能的精确表征，因为头部大小会根据头部的空间位置而大大变化，而身体其他部位(如手)到摄像机的距离保持不变。因此，我们可以通过使用头枕大小作为PCK测量的参考值。首先，从摄像机到头枕的距离几乎相同，这可以为PCK评估提供更稳定的参考。此外，头枕的大小与人的头部大约相同，因此PCK值的范围与其他人的姿势估计文献相似。这样可以更直观地解释分析结果。因此，我们使用修改后的PCKh度量标准（mPCKh），其中将头枕的对角线长度用作参考，如图Figure4所示：

Figure 4

对于安全带检测任务，没有可用的基线模型进行比较。所以，我们只报告模型的敏感性，特异性，准确率，F1得分和交叉结合（IOU）。

Table2展示了我们的NADS-Net和[4]的方法在姿态估计准确率上的对比结果。

Table3展示了安全带检测结果。

从实验结果来看，相比于[4]的SOAT结果，NADS-Net的准确率更高。且我们在Core-i7 CPU，1080Ti主机进行了速度测试，我们前向推理速度为18fps，而基准模型是12fps，且我们的模型参数量比基准模型减少了25%。

5. 结论

在本文中，我们提出了一种新的CNN体系结构，称为NADS-Net，用于驾驶员和乘客的姿态估计以及车辆中的安全带检测。在估计人体姿态和安全带检测时，NADS-Net能够与SOAT工作[4]拥有相似的准确度，同时减少了计算参数和拥有更快的推理速度。我们细分了性能，并在不同方面提供了深入的分析，包括性别，种族，衣服和光照条件。这些结果可能会为将来的学术研究和工业产品开发提供有用的参考。

[4] Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multiperson 2D pose estimation using part affinity fields. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7291–7299, 2017.

雷锋网原创文章，未经授权禁止转载。详情见转载须知。

举报/反馈

雷峰网leiphone

173万获赞 16.4万粉丝

雷峰网——关注智能与未来！

鲲鹏计划获奖作者

关注