本文共 10907 字,大约阅读时间需要 36 分钟。
Automatic detection of hardhats worn by construction personnel: A deep learning approach and benchmark dataset
工地安全
安全帽检测
计算机视觉
卷积神经网络
反向渐进注意力机制(RPA)
本文提出基于卷积神经网络的单阶段的系统自动检测是否带安全帽,并确认颜色是否正确。提出了一个新的数据集,3174个图片,包含各种情况。通过反向渐进注意力机制将不同层提取的不同特征融合生成一个新的特征金字塔,用SSD预测最终的检测结果。采用端到端的训练方式。输入图片512×512,mAP达到83.89%
巴拉巴拉的套话
列举一下这些人在做类似的研究
[6] A.H.M. Rubaiyat, T.T. Toma, M. Kalantari-Khandani, S.A. Rahman, L. Chen, Y. Ye,C.S. Pan, Automatic detection of helmet uses for construction safety, Proceedings of 2016 IEEE/WIC/ACM International Conference on Web Intelligence Workshops,IEEE, 2016, pp. 135–142, , https://doi.org/10.1109/WIW.2016.045.
[7] K. Shrestha, P.P. Shrestha, D. Bajracharya, E.A. Yfantis, Hard-hat detection for construction safety visualization, J. Constr. Eng. 2015 (2015) 1–8, https://doi.org/10.1155/2015/721380.
[8] K. Li, X. Zhao, J. Bian, M. Tan, Automatic safety helmet wearing detection, 2017 IEEE 7th Annual International Conference on CYBER Technology in Automation,Control, and Intelligent Systems (CYBER), 2018, pp. 617–622, , https://doi.org/10.1109/CYBER.2017.8446080.
[9] H. Zhang, X. Yan, H. Li, R. Jin, H. Fu, Real-time alarming, monitoring, and locating for non-hard-hat use in construction, J. Constr. Eng. Manag. 145 (2019) 4019006,https://doi.org/10.1061/(asce)co.1943-7862.0001629.
[10] B.E. Mneymneh, M. Abbas, H. Khoury, Vision-based framework for intelligent monitoring of hardhat wearing on construction sites, J. Comput. Civ. Eng. 33 (2018) 04018066, , https://doi.org/10.1061/(asce)cp.1943-5487.0000813.
[11] Z. Zhu, M. Park, N. Elsafty, Automated monitoring of hardhats wearing for onsite safety enhancement, 5th International Construction Specialty Conference of the Canadian Society for Civil Engineering, 2015, pp. 1–9, , https://doi.org/10.14288/1.0076342.
[12] S. Du, M. Shehata, W. Badawy, Hard hat detection in video sequences based on face features, motion and color information, International Conference on Computer Research and Development, 4 2011, pp. 25–29, , https://doi.org/10.1109/ICCRD.2011.5763846.
[13] M.-W. Park, N. Elsafty, Z. Zhu, Hardhat-wearing detection for enhancing on-site safety of construction workers, J. Constr. Eng. Manag. 141 (2015) 4015024, ,https://doi.org/10.1061/(asce)co.1943-7862.0000974.
[14] B.E. Mneymneh, M. Abbas, H. Khoury, Evaluation of computer vision techniques for automated hardhat detection in indoor construction safety applications, Front. Eng. Manag. 5 (2018) 227–239, https://doi.org/10.15302/J-FEM-2018071.
[15] A. Kelm, L. Laußat, A. Meins-Becker, D. Platz, M.J. Khazaee, A.M. Costin,
M. Helmus, J. Teizer, Mobile passive Radio Frequency Identification (RFID) portal
for automated and rapid control of Personal Protective Equipment (PPE) on construction sites, Autom. Constr. 36 (2013) 38–52, https://doi.org/10.1016/j.autcon.2013.08.009.
[16] S. Dong, Q. He, H. Li, Q. Yin, Automated PPE misuse identification and assessment for safety performance enhancement, International Conference on Construction and Real Estate Management, 2015, pp. 204–214, , https://doi.org/10.1061/9780784479377.024.
[17] Q. Fang, H. Li, X. Luo, L. Ding, H. Luo, T.M. Rose, Detecting non-hardhat-use by a deep learning method from far-field surveillance videos, Autom. Constr. 85 (2018)1–9, https://doi.org/10.1016/j.autcon.2017.09.018.
[18] J. Li, H. Liu, T. Wang, M. Jiang, S. Wang, K. Li, X. Zhao, Safety helmet wearing detection based on image processing and machine learning, 2017 Ninth International Conference on Advanced Computational Intelligence, 2017, pp.201–205, , https://doi.org/10.1109/ICACI.2017.7974509.
[19] H. Wu, J. Zhao, An intelligent vision-based approach for helmet identification for work safety, Comput. Ind. 100 (2018) 267–277, https://doi.org/10.1016/j.compind.2018.03.037.
其中,基于视觉的[6-8,10-14,17-19],基于高成本传感器[9,15,16]。
传统方法是,给一帧建筑工地的监控视频画面,基于视觉的技术检测安全帽分为三个部分,行人检测、安全帽定位和安全帽检测。[20,21]
[20] M.W. Park, I. Brilakis, Continuous localization of construction workers via integration of detection and tracking, Autom. Constr. 72 (2016) 129–142, https://doi.org/10.1016/j.autcon.2016.08.039.
[21] M.W. Park, I. Brilakis, Construction worker detection in video frames for initializingvision trackers, Autom. Constr. 28 (2012) 15–25, https://doi.org/10.1016/j.autcon.2012.06.001.
目前的挑战:
第一,背景变化较大和行人状态导致情况复杂,在特定场景下研究问题将起扩展到其他建筑工地困难。
第二,距离摄像头较远的小尺度个体很难从背景和其他遮挡中分辨出来。
第三,许多人出现在同一图像区域彼此相互遮挡。
这些都导致了安全帽检测困难。
最后,目前没有一个公共开源数据集在不同的环境下研究和检测安全帽算法。
在本文中,我们将安全帽检测的任务定位到建筑工地。目标是识别所有个体是否带有安全帽并且识别出安全帽的颜色。上述提到任务的困难度在于提取任何类型的手工特征的多阶段过程。为了解决这个问题,采用卷积神经网络,能够自动进行特征学习并且在计算机视觉领域与传统图像处理过程相比有更优越的性能表现。我们工作的动机在于SSD,SSD检测物体采用单个CNN直接回归边框。然而,SSD检测小尺度目标物体通常会失败,因为它在高分辨率底层的弱特征的固有特性,即使它构建了金字塔特征层次结构。为了有效检测小尺度安全帽,我们使用新型聚合框架,结合RPA(reverse progressive attention)将语义强的特征传回底层。采用这个方法,从底层提取特征,使检测对象和小尺度一致,有助于检测结果。
总结一下,本文的贡献:
1.对比当前通用的多阶段方法,本研究提供了单阶段的解决方法自动识别建筑工地上的安全帽是否佩戴。提出的系统是端到端训练的,在尺度变化,视角改变和拥挤场景中的遮挡环境下更加有效和鲁棒。
2.提出RPA聚集多尺度卷积特征。该方案在各个建筑工地的小规模安全帽检测显示了优越性。
3.提出了新的安全帽佩戴检测benchmark,共有3174张图片,包含18893个安全帽实例。这些图片包含了多个场景和光照变化,也包括遮挡的情况。在benchmark中每个实例都有标记好的类标签和bounding box。该数据集叫做GDUT-HWD。
按照惯例,安全帽佩戴检测方法可以分为两类:基于传感器检测和基于视觉检测。
传感器检测方法[9,15,16]聚焦于远程定位和跟踪技术,像RFID和WLANs。具体介绍略,毕竟不是做传感器检测的。
视觉检测方法,计算机视觉和模式识别技术为安全帽佩戴检测打下基础。
Wu[19]提出一种基于颜色的混合描述符,由局部二进制模式、不变量和颜色直方图组成,用于提取不同颜色安全帽的特征。然后利用分层支持向量机将特征分为四类(红色、黄色、蓝色和非安全帽)。
Li[8]提出基于ViBe算法和C4人类分类框架的工人检测方法。为了进行安全帽佩戴检测,裁剪了基于先验知识的头部区域,并利用HSV颜色空间进行分类。
Mneymneh通过首先使用标准偏差矩阵(SDM)检测运动物体,然后使用基于聚集通道特征的物体检测器对人进行分类,来监控安全帽佩戴的框架。
然后,基于方向梯度直方图特征的级联目标检测器在被识别人员的上部区域搜索安全帽,将被输入到属中基于颜色的分类组件中,这些多阶段方法严重依赖手工制作的特征来检测建筑工地上的个体。因此,在天气多变、视角不同和遮挡复杂的场景中,它们可能会失败。
最近,基于深度学习的目标检测日益流行激发了基于CNN的安全帽佩戴检测。
Fang提出了用Faster R-CNN方法自动检测建筑工人没有戴安全帽的情况。总共有81000图片帧从不同的建筑工地被收集取训练Faster R-CNN模型。在训练阶段,工人感兴趣区域(WOI)被标注ground truth训练。在测试阶段,NHU工人会被检测剩下的区域会被当做背景。识别安全帽的颜色在这个工作中无法实现。安全帽的颜色预示在建筑工地上不同的身份角色,加强工地的安全管理。同时,Faster R-CNN模型严重依赖顶层特征提取的信息而没有充分使用底层细节,根据[24],图像中不同比例的NHU工人可能会影响检测结果。
针对以往工作的局限性,提出了一种新的基于SSD框架的安全帽磨损自动检测算法。我们展示了这种方法的优越性发布了基准数据集,它具有为研究团体和工业应用开发新的卓越算法的优势。
从建筑工地上的摄像机收集的图像可能涉及许多具有挑战性的问题,例如比例变化、透视变形和部分遮挡。现有的多级安全帽佩戴检测方法通常不能有效地推广到各种现场场景,因为手工制作的特征被设计用于处理特定的情况。为了解决这个问题,在本文中,我们提出了一种基于SSD框架的单阶段数据驱动有线电视新闻网方法。我们的架构概述如图1所示。
SSD是一种通用的对象检测器,建立在以一些卷积层结束的“主干”网络之上。SSD的独到之处在于在不同的层中使用中间特征映射不同比例,用于检测高分辨率要素图中相对较小的对象和低分辨率要素图中较大的对象。
Fig.1 单阶段安全帽佩戴检测模型结构。一个简化的VGG16网络被用到这里。提供给多个box的特征金字塔由不同阶段的RPA模块生成。对于每个RPA模块,根据不同阶段感受野的大小卷积层使用不同尺度的卷积核。最终结果通过安全帽分类和bounding box回归生成。更多的检测细节可以看[22]。
公式说明略。
对于小尺度的安全帽佩戴检测,由于池化和卷积这样的重复下采样操作,顶层对于小分辨率包含较少的检测特征。相比之下,大分辨率的底层保留了丰富的空间细节,但包含语义较弱的特征。为了加速定位安全帽区域同时识别安全帽的颜色,有必要将多级功能组合到一起。然而,现有的方法不加区分地连接多级特征是有缺陷的,因为背景中冗余的细节和干扰。在显著对象检测[26]和语义分割[27]中,学习加权每个像素位置处的多尺度特征的注意机制变得越来越普遍。受注意力机制的启发,我们提出了反向渐进注意力机制(RPA),它对多层次的上下文信息进行渐进编码以生成安全帽佩戴检测的更抽象特征。
公式说明略。
我们的实验是基于VGG16,在ILSVRC CLSLOC数据集[28]上预训练。我们调整了简化版本的VGG16,使用SGD初始学习率0.001,动量0.9,衰减率0.0005,batch size设置为2。所有的实验基于 Nvidia Quadro M2000M 4GB GPU。数据和CNN模型使用Caffe搭建,并公开在Github上。
https://github.com/wujixiu/helmet-detection/tree/master/hardhat-wearing-detection
数据集GDUT-HWD下载的网络图片,搜索引擎采用关键字搜索,包含了场景变化,视角变化,照明变化,个人姿势变化和遮挡。图片数量3174,训练集和测试集分别为1587。其中包含18893个实例被分为5个类,每个实例被标注一个类标签和一个bounding box。小尺度(<32^2像素)在数据集中最多,给安全帽佩戴检测带来挑战。因此,为了测试检测器对不同尺度目标的能力,我们把实例分成了三个尺度种类:小目标(小于32^2像素),中目标(32^2——96^2像素),大目标(>96^2像素)。表1中展示了每个实例的类别,不同大小的实例数量在图2中。
mAP和AP用来评估不同模型的性能。AP是计算Precision×Recall曲线下的面积,mAP是AP在5个类中的平均值。Precision和Recall是计算每个类,被定义为:
Precision=TP/(TP+FP);
Recall=TP/TP+FN;
TP被定义为IoU中正确检测率≥0.5;
FP是错误检测率;
FN是ground truth没有被检测到。
之前的研究已经确定了特定场景无安全帽检测的有效性,但是目前没有公共开源的数据集比较现存方法的性能。因此,我们对GDUT-HWD创建了两个baseline,其中包括5个类的平均mAP和每个目标尺度的AP。与此同时,我们已经公开了在低内存和实时处理系统中的模型。所有的结果基于CNN的目标检测器并在表2和3中展示。
在表2中我们给出了GDUT-HWD的测试检测结果,在之前SOTA全尺寸的检测模型的上面,下面部分结果来自于我们提出的模型。如表2所示,我们低配SSD-RPA300模型已经是更快,超过Faster R-CNN9.55%mAP,超过SSD2.12%mAP。如果我们把我们的模型放在更大的512×512输入图像,达到最好的结果是83.89%,比SSD512稍微好0.62%(83.89%vs83.27%)。结果证明了输入图片的大小对基于SSD模型检测性能的重要性,因为图像中的对象在一些深层中仍然可以保持强的空间信息。这仍然可以在表2中显示出来,当聚集多尺度特征图进行预测时,检测精度显著提高。举个例子,Fang的Faster R-CNN模型对转换单比例特征图conv5用于检测的限制性能表现最差。
此外,结果还显示了该模型在辅助较小安全帽佩戴检测方面的优越性。如表2所示,即使SSD-RPA300和SSD-RPA512没有在中型和大型实例中显示出优越性,值得一提的是在我们给出相同的输入时SSD-RPA300模型比其他方法性能更好,超过ResNet-50[30]+FPN[31]1.66%(52.09% vs 50.43%)。当输入图像尺度增大时,我们的SSD-RPA512模型在实例中仍然达到了最高的mAP(67.05%),比SSD512模型高0.92%。尽管SSD-RPA512没有在更高图像尺寸的小实例中表现出有意义的提高,并且在检测中型和大型实例时有稍微的下降,这证明了RPA有助于提高安全帽佩戴检测器和小型实例检测的性能,尤其是小的图片大小。检测中型和大型实例性能的下降可能是由于过度强调小尺度的特征提取,这使得顶层的特征对于中型和大型实例的区分度更低。图3展示了对于小型,中型和大型实例的Precision×Recall曲线。正如图3中显示的那样,可以看到,与中型和大型对象相比,由于顶层中消失的信息,小的安全帽检测是一个挑战。尽管如此,所提出的RPA可以通过有区别地聚合多级特征的方式来提高性能,展示了对于分类和小目标的提升。
为了满足工业对于实时和低内存的要求,我们发布了轻量级安全帽检测模型。这些模型在资源消耗(模型大小和FPS)以及检测速率(mAP)中达到了很好的平衡,对于资源限制的情况下有很高的易用性。其中,我们在Pelee[32]中加入RPA在检测精度方面优于其他产品,同时在速度和内存存储方面仍保持竞争力。结果展示在表3中。
为了明白我们RPA的效果,我们进行实验测试每个阶段的RPA是如何影响性能的。为了检测提高的性能,我们逐渐移除RPA模块并比较结果。为了公平的比较,我们遵循共同的训练策略,在GDUT-HWD训练集和验证集设置相同的学习策略来训练。训练好的模型在GDUT-HWD测试集上测试。表4展示了少RPA模型后mAP的减少,减少幅度从75.22到74.66。
结果表明,从顶层到底层有区别地反向传播特征可以有效地提高性能,只需要很少的额外计算成本。
在图4中,我们展示了使用SSD-RPA512模型在GDUT-HWD数据集上的检测样本。这些例子涵盖许多因素,包括视觉范围、照明、个人姿势和遮挡。这些可视化结果表明了我们提出的模型的潜在能力,可以很好地推广到所有类型的建筑工地。
用于识别非安全帽使用的自动系统提供了降低创伤性脑损伤风险和提高建筑工地安全性的有效手段。先前的研究已经指出了通过计算机视觉技术而不是基于传感器的方法检测安全帽的重要性。然而,大多数研究采用了多阶段方法来解决这个问题建筑场地条件的适应性和实际可行性。与此同时,在审查文献时,没有公布这方面的基准,由于保密的限制,无法获得真实的工业数据。这项研究旨在通过基于CNN的方法从以下方面识别任何个人的安全帽使用情况现场场景。因此,在所提出的基准数据集GDUT-HWD上的大量实验证明了所提出方法的有效性。
在这项研究中,基于有线电视新闻网的安全帽佩戴检测方法被发现在广泛的现场条件下,例如视觉范围、照明、个人姿势和遮挡,是非常可靠和稳定的。关于确定小规模个人的问题
在远场图像中的应用,本研究发现,在固态硬盘框架中使用所提出的反向渐进注意(RPA)的特征聚合可以提高性能。对由1587幅图像组成的GDUT-HWD测试集的评估以及与在GDUT-HWD训练集上训练的现有流行目标检测模型的比较表明了其优越性。这可以通过以下事实来解释:在高分辨率的特征图中增加上下文信息实质上提高了小规模对象检测精度。通过将多级特征与RPA有区别地连接起来,底层引入了小规模对象的更多上下文和空间信息。与直接连接多级特征相比,这种方法重量轻得多,计算成本低得多。
我们的研究与其他基于深度学习框架的研究有相似之处。例如,方等人[17]训练了一个更快的R-CNN模型来检测非安全帽的使用。然而,我们的研究意义重大至少在三个主要方面:
在未来的研究中,建议使用感兴趣区域分割注释扩展GDUT-HWD数据集,并对对象检测任务和语义分割任务执行多任务学习。这有助于检测小型安全帽并提高泛化性能。
提高现场人员的安全是发展智能建筑工地的基本要求。为了降低建筑业的致命伤害率,安全帽是不可或缺的设备在检查和操作过程中保护个人免受脑损伤。
本文提出了一种基于CNN的方法来自动检查建筑工地上的个人是否戴安全帽,并识别安全帽的相应颜色(蓝色、白色、黄色和红色)。首先,新的基准数据集GDUT-HWD被分成训练集和测试集,以开发和评估用于安全帽佩戴检测的各种基于CNN的对象检测模型。其次,为了更好地检测小规模的安全帽,提出的反向渐进注意(RPA)被集成到SSD框架中,以区别地将上下文信息传播回底层。测试结果表明,我们的RPA-SSD模型能够在不同的输入大小下,在不同的条件下获得优异的性能。这项工作通过提供第一个公开可用的数据集和实时数据,为安全帽佩戴检测的现有知识做出了贡献现场监控模型。目前,需要进一步提高小规模安全帽检测的精度,并将安全帽检测与物体跟踪技术相结合,用于实时安全监控。
转载地址:http://drrpi.baihongyu.com/