多尺度注意力学习的Faster R-CNN口罩人脸检测模型

李泽琛 李恒超 胡文帅 杨金玉 华泽玺

LI Zechen, LI Hengchao, HU Wenshuai, YANG Jinyu, HUA Zexi. Masked Face Detection Model Based on Multi-scale Attention-Driven Faster R-CNN[J]. Journal of Southwest Jiaotong University, 2021, 56(5): 1002-1010. doi: 10.3969/j.issn.0258-2724.20210017
多尺度注意力学习的Faster R-CNN口罩人脸检测模型

doi: 10.3969/j.issn.0258-2724.20210017
基金项目: 国家自然科学基金(61871335);中央高校基本业务费专项资金(2682020XG02,2682020ZT35);国家重点研发计划(2020YFB1711902)




  • 中图分类号: TP391.41;TP183

Masked Face Detection Model Based on Multi-scale Attention-Driven Faster R-CNN

  • 摘要: 针对在佩戴口罩等有遮挡条件下的人脸检测问题,提出了多尺度注意力学习的Faster R-CNN (MSAF R-CNN)人脸检测模型. 首先,为充分考虑人脸目标多尺度信息,相较于原始Faster R-CNN框架,引入Res2Net分组残差结构,获取更细粒度的特征表征;其次,基于空间-通道注意力结构改进的Res2Net模块,结合注意力机制自适应学习目标不同尺度特征;最后,为学习目标的全局信息并减轻过拟合现象,在模型顶端嵌入加权空间金字塔池化网络,采用由粗到细的方式进行特征尺度划分. 在AIZOO和FMDD两个人脸数据集上的实验结果表明:所提出MSAF R-CNN模型对佩戴口罩的人脸检测准确率分别达到90.37%和90.11%,验证了模型的可行性和有效性.


  • 图 1  Res2Net模块

    Figure 1.  Res2Net module

    图 2  SCA-Res2Net模块

    Figure 2.  Structure of SCA-Res2Net module

    图 3  WSPP-Net模块

    Figure 3.  Structure of WSPP-Net

    图 4  MSAF R-CNN模型

    BN —batch normalization

    Figure 4.  MSAF R-CNN model

    图 5  数据集部分图像

    Figure 5.  Partial images of datasets

    表  1  不同分组数实验结果

    Table  1.   Experimental results under different numbers of groups %

    表  2  不同压缩比实验结果

    Table  2.   Experimental results under different compression ratios %

    表  3  WSPP-Net不同多尺度窗口大小实验结果

    Table  3.   Experimental results under different window sizes in WSPP-Net %

    表  4  不同检测方法的性能

    Table  4.   Performance of different methods %

    数据集类别模型 1模型 2模型 3模型 4MSAF R-CNN
    表  5  消融实验结果

    Table  5.   Ablation experimental results of feature removal and fusion %

    数据集类别模型 5模型 6模型 7MSAF R-CNN
