龚勋 张志莹 刘璐 马冰 吴昆伦

基金项目: 国家自然科学基金(61876158);中央高校基本科研业务费专项资金(2682021ZTPY030)

    龚勋(1980—),男,教授,博士生导师,研究方向为计算机视觉与模式识别,E-mail: xgong@swjtu.edu.cn

  • 中图分类号: TP391

A Survey of Human-Object Interaction Detection

  • 摘要:

    作为目标检测、行为识别、视觉关系检测的交叉学科,人物交互(human-object interaction,HOI)检测旨在识别特定应用场景下人与物体的相互关系. 本文对基于图像的人物交互检测研究成果进行了系统总结及论述. 首先,从交互关系建模的原理出发,把人物交互检测方法分为基于全局实例和基于局部实例两类,并对代表性方法进行了详细阐述和分析;进而,根据所采用视觉特征的差异将基于全局实例的方法进行细分,包括融合空间位置信息、融合外观信息与融合人体姿态信息;然后,讨论了零样本学习、弱监督学习以及Transformer模型在人物交互检测中的应用;最后,从交互类别、视觉干扰以及运动视角三方面出发,总结了人物交互检测面临的挑战,并指出领域泛化、实时检测和端到端网络是未来发展的趋势.


  • 图 1  人物交互关系检测流程

    Figure 1.  Flowchart of HOI detection

    图 2  人物交互的相对空间关系

    Figure 2.  Relative spatial relationship in HOI

    图 3  基于人-物区域位置信息的HO-RCNN网络

    Figure 3.  HO-RCNN networks based on human-object regional information

    图 4  空间引发模型框架

    Figure 4.  Framework of spatial priming model

    图 5  PPDM与同类方法在HICO-DET上的推理时间、平均准确度以及速度

    Figure 5.  Inference time, mAP, speed between PPDM and similar methods on HICO-DET dataset

    图 6  融合视觉语义姿态特征的VSP-GMN网络

    Figure 6.  VSP-GMN network integrating visual, semantic and pose features

    图 7  整体人体姿态与局部特征的对比

    Figure 7.  Comparison of overall human posture and local features

    图 8  基于实例行为的局部标签

    Figure 8.  Local annotations based on instance behavior

    图 9  零样本目标检测流程

    Figure 9.  Flowchart of zero-shot object detection

    表  1  人物交互图像数据集

    Table  1.   HOI image datasets

    HAKE (2020)[13]上海交通大学118 000156检测框结合
    HOI-A (2020)[14]北京航空航天大学17 60610检测框结合
    HICO-DET (2018)[12]密西根大学安娜堡分校48 000117检测框结合
    HCVRD (2018)[15]澳大利亚阿德莱德大学788 1609 852检测框结合
    V-COCO (2015)[11]加州大学伯克利分校10 34680检测框
    HICO (2015)[9]密西根大学安娜堡分校47 774600语义描述
    MPII (2014)[10]普朗克信息学研究所40 5224102D 姿态
    TUHOI (2014)[8]意大利特伦托波沃大学10 8052 974语义描述
    表  2  基于视觉特征方法在HICO-DET数据集的mAP结果对比

    Table  2.   Result comparison of mAP with visual feature based methods on HICO-DET data set

    来源年份方法特征 mAP(Default)/% mAP(Know Object)/%
    文献[46]2021 年GGNetA29.1722.1330.8433.5026.6734.89
    文献[14]2020 年PPDMA21.7313.7824.1024.5816.6526.84
    文献[17]2020 年VS-GATs
    + PMN
    A + S + P21.2117.6022.29
    文献[45]2021 年多级成对特征网络A + S + P20.0516.6621.0724.0121.0924.89
    文献[34]2019 年PMFNetA + S + P17.4615.6518.0020.3417.4721.20
    文献[31]2019 年TINA + S + P17.2213.5118.3219.3815.3820.57
    文献[20]2019 年多分支网络A + S16.2411.1617.7517.7312.7819.21
    文献[19]2018 年iCANA + S14.8410.4516.1516.2611.3317.73
    文献[12]2018 年HO-RCNNA + S 7.81 5.37 8.5410.41 8.9410.85
      注:A、S、P 分别表示外观、空间和骨架;Full、Rare、None-Rare 分别表示完整类、罕见类、非罕见类.
    表  3  基于视觉特征方法在V-COCO数据集结果对比

    Table  3.   Results comparison of visual feature based methods on V-COCO data set

    文献[46]2021 年GGNet-HourglassA54.70
    文献[45]2021 年多级成对特征网络A + S + P52.80
    文献[17]2020 年VS-GATsA + S + P49.80
    文献[34]2019 年PMFNetA + S + P52.00
    文献[31]2019 年TINA + S + P48.70
    文献[41]2019 年Body-partA + P47.53
    文献[20]2019 年多分支网络A + S47.30
    文献[19]2018 年iCANA + S45.30
    文献[24]2017 年InteractNetA40.00
    表  4  其他新技术总结

    Table  4.   Summary of other new technologies

    文献[57] 2021 年 V-COCO QPIC  利用注意力机制有效地聚合特征以检测各种 HOI 类 58.80
    文献[56] 2021 年 HICO-DET HOTR  首次提出基于Transformer编码器-解码器结构的预测框架 25.10
    文献[54] 2020 年 HICO GCNCL  以弱监督的方式训练未见类 16.02
    文献[51] 2019 年 COCO-a
    三联体模型  提出了一个类比迁移模型,可计算从未见过的视觉短语嵌入信息 7.30
    文献[50] 2019 年 VT60 ZSL + S2S  语义到空间体系结构融合了零样本学习共同捕获信息并查询 50.47
    文献[49] 2018 年 ILSVRC-2017
    Unseen (all)
    端到端的深度架构  将零样本任务扩展到目标检测领域,联合建模了视觉和语义领域信息融合的端到端深度网络 16.40
    文献[48] 2018 年 HICO-DET 多任务训练网络  通过零样本学习方法将 HOI 识别扩展到长类别,实现对未见的动词-对象对的零样本目标检测 6.46
