• ISSN 0258-2724
  • CN 51-1277/U
  • EI Compendex
  • Scopus 收录
  • 全国中文核心期刊
  • 中国科技论文统计源期刊
  • 中国科学引文数据库来源期刊

人物交互检测研究进展综述

龚勋 张志莹 刘璐 马冰 吴昆伦

李春光, 毛禹, 颜虎斌, 梁爱鸿, 韩艳. 带输送机边主梁涡振性能及抑振措施试验研究[J]. 西南交通大学学报, 2022, 57(4): 886-893. doi: 10.3969/j.issn.0258-2724.20210224
引用本文: 龚勋, 张志莹, 刘璐, 马冰, 吴昆伦. 人物交互检测研究进展综述[J]. 西南交通大学学报, 2022, 57(4): 693-704. doi: 10.3969/j.issn.0258-2724.20210339
LI Chunguang, MAO Yu, YAN Hubin, LIANG Aihong, HAN Yan. Experimental Study on Vortex-Induced Vibration Performance and Countermeasures for Side Girder Beam with Conveyer[J]. Journal of Southwest Jiaotong University, 2022, 57(4): 886-893. doi: 10.3969/j.issn.0258-2724.20210224
Citation: GONG Xun, ZHANG Zhiying, LIU Lu, MA Bing, WU Kunlun. A Survey of Human-Object Interaction Detection[J]. Journal of Southwest Jiaotong University, 2022, 57(4): 693-704. doi: 10.3969/j.issn.0258-2724.20210339

人物交互检测研究进展综述

doi: 10.3969/j.issn.0258-2724.20210339
基金项目: 国家自然科学基金(61876158);中央高校基本科研业务费专项资金(2682021ZTPY030)
详细信息
    作者简介:

    龚勋(1980—),男,教授,博士生导师,研究方向为计算机视觉与模式识别,E-mail: xgong@swjtu.edu.cn

  • 中图分类号: TP391

A Survey of Human-Object Interaction Detection

  • 摘要:

    作为目标检测、行为识别、视觉关系检测的交叉学科,人物交互(human-object interaction,HOI)检测旨在识别特定应用场景下人与物体的相互关系. 本文对基于图像的人物交互检测研究成果进行了系统总结及论述. 首先,从交互关系建模的原理出发,把人物交互检测方法分为基于全局实例和基于局部实例两类,并对代表性方法进行了详细阐述和分析;进而,根据所采用视觉特征的差异将基于全局实例的方法进行细分,包括融合空间位置信息、融合外观信息与融合人体姿态信息;然后,讨论了零样本学习、弱监督学习以及Transformer模型在人物交互检测中的应用;最后,从交互类别、视觉干扰以及运动视角三方面出发,总结了人物交互检测面临的挑战,并指出领域泛化、实时检测和端到端网络是未来发展的趋势.

     

  • 城市轨道交通具有运量大、节约环保、安全准时等特点. 截至2020年底,全国(不含港澳台)共有44个城市开通运营城市轨道交通线路233条,运营里程达7545.5公里,整体呈逐年上涨趋势. 目前城市轨道交通轨道结构主要采用现浇式,包括短枕式整体道床和长枕式整体道床:短轨枕式几何形位保持能力较差,施工精度较低;长枕式新旧混凝土接触面多,界面裂纹相对较多. 同时,现浇轨道结构均存在施工进度缓慢、混凝土质量控制难、作业环境恶劣、道床裂纹较多、维修困难、减振效果难以保证等诸多弊端[1-2].

    为适应城市轨道交通的大规模建设,促进轨道结构技术创新,可结合国内高铁各类预制板式无砟轨道应用经验,引进并优化为适用于城市轨道交通的新型预制装配板式无砟轨道系统,解决目前现浇道床结构的各类缺点. 装配板式轨道相较于现浇式轨道具有七大优势:1) 工厂化预制质量更好、精度更高,在结构信息化方面优势明显;2) 机械化施工、现场拼装铺设轨道效率高、工期短;3) 施工占地小、城市交通压力小;4) 运营期间维修量少、可维修性好;5) 有减振需求时可快速实现减振升级改造;6) 能够应对我国即将到来的人力资源紧缺及人工成本持续提高的难题;7) 节能减排、降低能耗,能够有效降低施工对环境的污染. 此外,在轨道交通建设与运营中必须考虑减振问题,为最大限度减少振动造成对周围环境的影响,研发减振效果更好、结构更稳定的装配板式轨道十分必要[3-4].

    目前已有部分学者对装配式轨道进行了相关研究. 李浩宇等[5]对城市轨道交通新型装配式无砟轨道的施工技术进行研究;冉丹丹等[6]对地铁装配式轨道板铺设的施工技术进行研究;李奇等[7]对装配式长型浮置板的静动力性能进行了研究;刘伟斌等[8-9]对城市轨道交通板式无砟轨道的设计应用进行相关研究;叶军等[10]对装配式轨道板的结构动力及减振特性进行研究;杨秀仁等[11]对城市轨道交通智能装配式减振轨道系统进行研究. 综上可知,既有针对城市轨道交通装配式轨道的研究主要集中在施工技术方面,对减振型装配式轨道设计研究相对较少,整体尚不够系统.

    本文在系统总结分析装配式轨道设计需考虑因素的基础上,提出主要设计原则,并结合城市轨道交通减振需求,创新性提出一种减振型装配式无砟轨道设计方案,建立轨道动力分析模型和室内实尺试验模型,从理论和试验的角度对减振型装配式无砟轨道力学性能进行研究,以期为我国城市轨道交通减振型装配式无砟轨道结构设计提供参考.

    从既有城市轨道交通轨道结构运营实践来看,装配式轨道结构设计需考虑以下因素:

    1) 小半径曲线适应性

    城市轨道交通多运行在市区,受选线综合影响,小曲线半径较多,目前预制板式轨道结构在小半径曲线多利用扣件系统的调整量进行钢轨的圆矢度控制. 设计时需充分考虑针对小曲线应用需求,采用预制短板进行装配来适应线路调整,同时还需考虑外轨偏差、缓和曲线设置、轨道超高适应性等.

    2) 施工吊装运输的便利性

    城市轨道交通隧道地段铺设施工占比较大,预制轨道板尺寸及重量偏大时,在隧道内运输时需要专用吊装设备,洞内组装难度较大,施工效率偏低,平均铺设进度工效需进一步提升. 可在高速铁路轨道板设计尺寸参数等基础上进行优化调整,提高施工便利性和施工效率,兼顾施工质量与工效.

    3) 桥上结构适应性

    桥上铺设时需控制二期恒载,轨道结构长度需考虑温度效应. 对于露天路基地段及桥梁地段,轨道板运输及施工条件较好区域,轨道板长度可适当加长,进一步提高铺轨效率和轨道系统整体性能.

    4) 减振区段适应性

    城市轨道交通市区穿行,减振地段应用范围广泛,需充分考虑线路减振性能要求.

    5) 排水适应性

    受地下线盾构限界影响,现阶段预制板式轨道结构普遍采用双侧水沟,利用板两侧与隧道空隙设置排水沟,在小半径曲线地段内侧易造成排水沟尺寸较小,导致区间排水不畅,诱发相关病害. 可进一步优化轨道板结构尺寸,采用平板或框架板结构,适应中间排水与两侧排水应用需求.

    6) 结构标准化

    为进一步提升轨道建造经济性、降低轨道板制造费用,结合项目应用需求,考虑不同区段轨道板布置,通过优化结构尺寸及轨道板布置减少轨道板长度型号,形成标准化轨道板.

    7) 运维便利性

    城市轨道交通由于施工控制不佳或线路沉降超标,部分地段无法满足线路运营状态要求,需进行调整. 为降低对运营影响,需在天窗期实现单元板的切除、调运、更换、安装.

    综合考虑上述因素,本文在城市轨道交通装配式无砟轨道设计时,主要遵循以下原则:1) 轨道结构简单、传力清晰,便于施工;2) 轨道结构各层匹配,无明显薄弱环节;3) 轨道结构采用工厂化制造、机械化施工,提高工程质量及施工工效;4) 具备较好的可维修性;5) 轨道结构减振实现方便且减振效果良好;6) 考虑一定的经济性;7) 充分考虑与相关工程的接口技术要求,系统设计.

    减振型装配式无砟轨道结构主要组成部件包括钢轨、扣件、预制轨道板、自密实混凝土层、减振垫、板间连接装配件、限位构件和基座等,如图1所示.

    图  1  新型装配式无砟轨道组成
    Figure  1.  Composition of new type assembled ballastless track

    1) 钢轨及扣件

    采用60 kg/m钢轨,材质为U75V. 采用无挡肩的DTVI2型扣件,如图2所示,扣件间距600 mm.

    图  2  DTVI2型扣件平面图
    Figure  2.  DTVI2 fastener plan

    2) 轨道板

    轨道板为工厂预制非预应力、单元分块式框架板结构. 板面设4对承轨台,板底设2排共14根门型筋,混凝土强度等级为C60. 轨道板分中间板和端板两种型式,中间标准轨道板宽2100 mm、厚200 mm、长2100 mm,端板长2200 mm. 板中间框架沿线路纵向长900 mm,沿横向宽800 mm,倒角半径200 mm. 框架板中间部分可作为排水沟检查使用,设置盖板作为疏散通道使用. 轨道板端部纵向预留2组共8根连接钢筋. 两块端板加上N块中间板通过板端连接钢筋和板间连接装配件装配形成较长的装配单元,如图3所示. 装配单元之间设100 mm伸缩缝,板端预埋接地端子.

    图  3  轨道板结构
    Figure  3.  Track slab

    3) 板间连接装配件

    板间连接装配件为钢筋套筒,如图4所示. 板间连接装配件连接轨道板端外伸的连接钢筋装配形成一定长度的装配单元,形成的接头需符合《钢筋机械连接技术规程》[12]的Ⅰ级接头指标要求.

    图  4  板间连接装配件
    Figure  4.  Plate to plate connection assembly

    4) 自密实混凝土垫层

    板下自密实混凝土垫层厚100 mm,强度等级为C40,起到调平、填充轨道板与下部基础的作用,如图5所示. 垫层宽度650 mm,与框架板两侧宽度相同,纵向与板长相同. 垫层内配置单层ϕ10钢筋网片,垫层混凝土浇筑施工时通过板一端向另一端进行灌注.

    图  5  轨道结构横断面
    Figure  5.  Cross section of track structure

    5) 减振垫

    减振垫设置在自密实混凝土垫层与基座之间,可一定程度提高减振垫上部轨道结构的参振质量,提高减振效果. 减振垫采用聚氨酯发泡材料或者具有锥形突起结构的橡胶材料,减振层厚度为30 mm,减振垫刚度0.019 N/mm3.

    6) 限位构件

    限位构件现浇于装配单元中的中间板与中间板之间或中间板与端板之间,与自密实混凝土垫层共同浇筑形成整体. 限位构件分左右两块,如图6(a)所示,单块宽300 mm、长650 mm、高300 mm,起纵横向限位作用. 限位构件混凝土等级为C40,设钢筋笼,通过8根ϕ 20长540 mm的限位钢筋与下部混凝土基座相连,限位钢筋外包裹一层套筒,如图6(b)所示,钢筋可沿套筒长度方向自由伸缩,以此适应垂向减振的变形需求.

    图  6  轨道板限位构件
    Figure  6.  Limiting member

    7) 基座

    基座为现浇钢筋混凝土结构,混凝土强度等级为C40. 基座在限位构件位置植有限位钢筋,钢筋植入深度250 mm. 考虑到城市轨道交通曲线半径较小,超高较大,轨道结构超高通过基座实现.

    总体来说,减振型装配式无砟轨道采用预制框架板型式,轨道板重量较轻,施工运输方便;板中框架可作为排水沟的观察孔和清理孔,盖上盖板还可作为疏散通道;单块轨道板在线路纵向上长度较短,对小曲线半径适应性较强;板与板之间通过装配形成较长的装配单元,结构施工精度高、整体性好、可靠性强,同时增加了轨道单元的整体长度,减振效果进一步加强;板端限位构件与自密实混凝土浇筑形成整体,限位能力强、稳定性能好;后期养护维修时,可通过解锁装配单元完成对轨道板单元的更换调整,可维修性较强.

    结合轨道结构设计方案特点,建立可考虑新型装配式无砟轨道各结构层相互作用关系的车辆-轨道耦合动力分析模型,研究轨道结构在列车荷载作用下的动力特性.

    基于车辆-轨道动力学耦合理论[13],建立车辆-装配式无砟轨道空间耦合动力分析模型. 模型包括车辆、装配式无砟轨道、轮轨耦合、轨道不平顺共4个部分. 车辆采用整车模型,考虑车体和转向架的沉浮、横摆、点头、摇头、侧滚以及轮对的沉浮、摇头、横摆和侧滚共计31个自由度,车辆参数参照地铁B型车辆[14]. 新型装配式无砟轨道各组成部件的几何尺寸按设计取值,材料参数见表1.

    表  1  轨道结构模型参数
    Table  1.  Track structure model parameters
    部件弹性模量/GPa泊松比密度/(kg·m−3
    钢轨206.00.37800
    轨道板36.50.22500
    混凝土垫层34.00.22400
    基座34.00.22500
    限位构件34.00.22500
    下载: 导出CSV 
    | 显示表格

    为更好反映各部件受力情况,钢轨、轨道板、板下自密实混凝土垫层、基座和限位构件均采用实体单元模拟. DTVI2型扣件采用三向非线性弹簧-阻尼单元模拟,考虑纵、横、垂3个方向的刚度,垂向刚度取30 kN/mm,切向静刚度取40 kN/mm[15]. 轨道板通过门型筋与自密实混凝土层相连,两界面采用绑定连接. 减振垫与自密实混凝土界面切向采用摩擦接触模拟,摩擦系数取0.6,法向采用硬接触模拟[16],减振垫与基座界面采用绑定连接,减振垫刚度取0.019 N/mm3,以隧道地段为例,支撑刚度取1200 MPa/m[16-17]. 钢轨两端采用对称约束,轮轨间接触遵循Hertz非线性接触理论,轨道不平顺采用美国普通铁路的美国五级谱[18]. 综上,新型装配式无砟轨道车辆-轨道空间耦合动力有限元分析模型如图7所示.

    图  7  车辆-轨道耦合动力分析模型
    Figure  7.  Vehicle track coupling dynamic analysis model

    行车速度100 km/h条件下,新型装配式无砟轨道的部分典型动力指标时程曲线如图8所示,系统动力响应汇总如表23所示.

    图  8  动力响应时程曲线
    Figure  8.  Dynamic response time history curves
    表  2  车-轨动力响应统计
    Table  2.  Statistics of vehicle-rail dynamic response
    动力响应指标峰值
    轮轨横向力/kN5.457
    轮轨垂向力/kN73.115
    脱轨系数0.073
    轮重减载率0.108
    下载: 导出CSV 
    | 显示表格
    表  3  系统动力响应统计
    Table  3.  Statistics of system dynamic response
    项目动力响应指标峰值
    车体垂向加速度/(m·s−20.429
    横向加速度/(m·s−20.285
    钢轨垂向加速度/(m·s−2190.380
    垂向位移/mm2.141
    轨道板垂向加速度/(m·s−231.200
    垂向位移/mm0.812
    混凝土垫层垂向加速度/(m·s−226.020
    垂向位移/mm0.761
    基座垂向加速度/(m·s−21.160
    垂向位移/mm0.122
    下载: 导出CSV 
    | 显示表格

    图8表23可知:新型装配式无砟轨道在行车速度100 km/h条件下,脱轨系数和轮重减载率最大分别为0.073、0.108,轮轨垂向力和横向力峰值分别为73.115 kN和5.457 kN,结果均未超限,满足行车安全要求;车体垂、横向加速度分别为0.429 m/s2和0.285 m/s2,满足《地铁设计规范》(GB 50157—2013)[19]垂向加速度az≤0.13g和横向加速度ay≤0.10g的行车安全性和乘坐舒适性指标要求;钢轨最大垂向位移为2.141 mm,轨道板垂向位移和自密实混凝土层相差不大,分别为0.812 mm和0.761 mm. 基座位移很小,约0.122 mm;钢轨、轨道板、自密实混凝土层和基座的振动加速度从上往下均有不同程度的衰减,垂向加速度峰值分别为190.380、31.200、26.020、1.160 m/s2.

    综上可知,新型装配式无砟轨道结构在列车荷载作用下动力性能良好,满足行车安全性和舒适性要求.

    借助试验室静动力加载装置以及落轴试验装置,对轨道结构进行静载试验、疲劳试验和落轴冲击试验,研究在静载、疲劳动载和落轴冲击载荷作用下,减振型装配式无砟轨道的力学性能,为新型装配板式无砟轨道的设计以及实际应用提供试验支撑. 减振型装配式无砟轨道实尺模型由3块轨道板(2块端板 + 1块中间板)组成,总长7.1 m. 现场部分测点布置如图9所示.

    图  9  现场部分测点
    Figure  9.  Layout of some measuring points on site

    轨道系统静载试验考虑的最大载荷为3PjPj为列车静轮载,轴重17 t),包含规范推荐的设计垂向荷载2Pj. 从0加载至510 kN,在400 kN前每一级荷载为50 kN,在400 kN后每一级荷载为20 kN,记录每次载荷作用下轨道系统各测点的应变情况. 各级荷载作用下典型测点的混凝土应变变化曲线如图10所示,其中测点1、2分别位于轨道板横向两侧截面中间位置,测点3~6等间距分布于轨道板上表面板中位置.

    图  10  各测点混凝土应变
    Figure  10.  Concrete strain at each measuring point

    图10可知:各测点混凝土应变绝对值随荷载的增加整体呈线性增加趋势;在3Pj的静载作用下,轨道混凝土最大压应变为 −129.6 με,远小于混凝土极限应变值;在静载试验过程中轨道结构未出现开裂现象,减振型装配式轨道结构强度和刚度满足承载要求.

    图11为各级荷载作用下轨道结构变形曲线. 由图11可知:各测点垂向位移均随着荷载的增大而增大,左、右两边钢轨最大垂向位移分别为2.44 mm和2.40 mm,轨道板两侧的最大垂向位移分别为1.32 mm和1.34 mm,数值相差不大,轨道结构两侧对称受力. 图12为加、卸载过程中钢轨位移变化曲线,由图12可知:在加载卸载过程中曲线总体平稳,未见位移的突变;卸载后基本没有残余位移,说明加载、卸载过程中轨道板主要处于弹性受力阶段,未出现较大的塑性变形,受力性能良好.

    图  11  荷载-位移变化曲线
    Figure  11.  Load-displacement curves
    图  12  加载和卸载过程中钢轨位移变化曲线
    Figure  12.  Rail displacement curves during loading and unloading

    采用MTS疲劳试验机进行疲劳试验,疲劳荷载的上限按规范要求取为1.5Pj,疲劳荷载下限值按疲劳机最大加载能力的3%确定,即15 kN. 通过MTS作动器施加正弦荷载,加载频率为4 Hz,累计疲劳作用次数为200万次.

    图13为钢轨和轨道板位移随疲劳试验次数变化曲线. 由图12可知:在1.5Pj的200万次疲劳荷载作用下,钢轨最大垂向位移为1.303 mm,轨道板最大垂向位移为0.843 mm;疲劳试验过程中,钢轨和轨道板位移在疲劳荷载作用下随疲劳次数的增加在一定范围内上下波动,200万次疲劳试验后钢轨最大垂向位移增加了0.180 mm,轨道板最大垂向位移增加了0.130 mm,整体变化量较小,表明装配式无砟轨道在经200万次疲劳荷载作用下的工作性能良好.

    图  13  钢轨和轨道板位移变化曲线
    Figure  13.  Displacement curves of rail and track slab

    在疲劳试验过程中,轨道结构表面及层间界面未见肉眼可见裂缝,减振型装配式无砟轨道抵抗疲劳性能良好,新型装配式无砟轨道能够经受1.5Pj的疲劳荷载作用200万次的检验.

    采用力锤锤击法,分别测试一般地段和减振地段装配式无砟轨道结构在力锤脉冲荷载作用下的动力响应,对比分析轨道各部件在脉冲荷载作用下的Z振级,掌握减振型装配式无砟轨道振动传递特性和减振性能. 试验采用DFC-2型力锤,重量8 kg,力锤垂直下落高度为120 mm. 为避免轨道板纵向边界效应的影响,并且充分激发轨道板的垂向振动,将落锤点设置在轨道板板中截面.

    力锤作用下一般地段和减振地段装配式无砟轨道基座垂向加速度1/3倍频程如图14所示.

    图  14  基座垂向加速度1/3倍频程
    Figure  14.  1/3 Octave diagram of vertical acceleration of base

    图14可知:减振型装配式无砟轨道具有显著的减振效果,频率为100~125 Hz,最大减振效果可达12.4 dB.

    将力锤锤击试验工况下的轨道结构系统简化为单一激励输入的质量弹簧系统,分析力锤锤击激励输入与基座振动响应输出间的传递函数,对比一般地段与减振地段新型装配式无砟轨道传递函数幅值,如图15所示.

    图  15  轨道传递函数幅频谱
    Figure  15.  Amplitude spectrum of orbital transfer function

    图15可知:相比一般地段,减振地段的新型装配式无砟轨道可使力锤锤击激励与基座振动响应间的传递函数幅值大幅削减,减振型装配式无砟轨道减振效果较好;疲劳加载前、疲劳加载至100万次、200万次工况下的传递函数幅值曲线峰值起伏频率范围基本一致,表明轨道结构的减振特性经过疲劳加载后的稳定性较好.

    1) 减振型装配式无砟轨道结构在100 km/h的行车条件下,系统动力响应均在安全限值范围内,满足行车安全性和舒适性要求.

    2) 轨道结构在静载试验过程中混凝土应变随荷载增加整体呈线性增加趋势,最大压应变为−129.6 με,远小于混凝土极限应变值,结构受力在强度允许范围内;卸载后残余变形很小,轨道弹性较好;静载试验过程中结构未见肉眼可见裂纹,结构承载能力和抗裂性能满足要求.

    3) 在200万次疲劳荷载作用下,轨道结构整体受力变形较小,疲劳试验过程中变化幅值不大,轨道结构表面及层间界面未见裂缝,轨道结构抗疲劳性能良好.

    4) 减振型装配式无砟轨道减振效果显著且减振稳定性较好,频率为100~125 Hz,最大减振效果可达12.4 dB.

    致谢:中铁第四勘察设计院集团有限公司科技研发课题(2019K011,2020K155).

  • 图 1  人物交互关系检测流程

    Figure 1.  Flowchart of HOI detection

    图 2  人物交互的相对空间关系

    Figure 2.  Relative spatial relationship in HOI

    图 3  基于人-物区域位置信息的HO-RCNN网络

    Figure 3.  HO-RCNN networks based on human-object regional information

    图 4  空间引发模型框架

    Figure 4.  Framework of spatial priming model

    图 5  PPDM与同类方法在HICO-DET上的推理时间、平均准确度以及速度

    Figure 5.  Inference time, mAP, speed between PPDM and similar methods on HICO-DET dataset

    图 6  融合视觉语义姿态特征的VSP-GMN网络

    Figure 6.  VSP-GMN network integrating visual, semantic and pose features

    图 7  整体人体姿态与局部特征的对比

    Figure 7.  Comparison of overall human posture and local features

    图 8  基于实例行为的局部标签

    Figure 8.  Local annotations based on instance behavior

    图 9  零样本目标检测流程

    Figure 9.  Flowchart of zero-shot object detection

    表  1  人物交互图像数据集

    Table  1.   HOI image datasets

    数据集发布机构/发布者图片/张动作/类注释类型示例
    HAKE (2020)[13]上海交通大学118 000156检测框结合
    语义描述
    HOI-A (2020)[14]北京航空航天大学17 60610检测框结合
    语义描述
    HICO-DET (2018)[12]密西根大学安娜堡分校48 000117检测框结合
    语义描述
    HCVRD (2018)[15]澳大利亚阿德莱德大学788 1609 852检测框结合
    语义描述
    V-COCO (2015)[11]加州大学伯克利分校10 34680检测框
    HICO (2015)[9]密西根大学安娜堡分校47 774600语义描述
    MPII (2014)[10]普朗克信息学研究所40 5224102D 姿态
    TUHOI (2014)[8]意大利特伦托波沃大学10 8052 974语义描述
    下载: 导出CSV

    表  2  基于视觉特征方法在HICO-DET数据集的mAP结果对比

    Table  2.   Result comparison of mAP with visual feature based methods on HICO-DET data set

    来源年份方法特征 mAP(Default)/% mAP(Know Object)/%
    FullRareNone-RareFullRareNone-Rare
    文献[46]2021 年GGNetA29.1722.1330.8433.5026.6734.89
    文献[14]2020 年PPDMA21.7313.7824.1024.5816.6526.84
    文献[17]2020 年VS-GATs
    + PMN
    A + S + P21.2117.6022.29
    文献[45]2021 年多级成对特征网络A + S + P20.0516.6621.0724.0121.0924.89
    文献[34]2019 年PMFNetA + S + P17.4615.6518.0020.3417.4721.20
    文献[31]2019 年TINA + S + P17.2213.5118.3219.3815.3820.57
    文献[20]2019 年多分支网络A + S16.2411.1617.7517.7312.7819.21
    文献[19]2018 年iCANA + S14.8410.4516.1516.2611.3317.73
    文献[12]2018 年HO-RCNNA + S 7.81 5.37 8.5410.41 8.9410.85
      注:A、S、P 分别表示外观、空间和骨架;Full、Rare、None-Rare 分别表示完整类、罕见类、非罕见类.
    下载: 导出CSV

    表  3  基于视觉特征方法在V-COCO数据集结果对比

    Table  3.   Results comparison of visual feature based methods on V-COCO data set

    来源年份方法特征AP/%
    文献[46]2021 年GGNet-HourglassA54.70
    文献[45]2021 年多级成对特征网络A + S + P52.80
    文献[17]2020 年VS-GATsA + S + P49.80
    文献[34]2019 年PMFNetA + S + P52.00
    文献[31]2019 年TINA + S + P48.70
    文献[41]2019 年Body-partA + P47.53
    文献[20]2019 年多分支网络A + S47.30
    文献[19]2018 年iCANA + S45.30
    文献[24]2017 年InteractNetA40.00
    下载: 导出CSV

    表  4  其他新技术总结

    Table  4.   Summary of other new technologies

    来源年份数据集方法主要工作概述mAP/%
    文献[57] 2021 年 V-COCO QPIC  利用注意力机制有效地聚合特征以检测各种 HOI 类 58.80
    文献[56] 2021 年 HICO-DET HOTR  首次提出基于Transformer编码器-解码器结构的预测框架 25.10
    文献[54] 2020 年 HICO GCNCL  以弱监督的方式训练未见类 16.02
    文献[51] 2019 年 COCO-a
    UnRel
    HICO-DET
    三联体模型  提出了一个类比迁移模型,可计算从未见过的视觉短语嵌入信息 7.30
    17.50
    20.90
    文献[50] 2019 年 VT60 ZSL + S2S  语义到空间体系结构融合了零样本学习共同捕获信息并查询 50.47
    文献[49] 2018 年 ILSVRC-2017
    Unseen (all)
    Seen
    端到端的深度架构  将零样本任务扩展到目标检测领域,联合建模了视觉和语义领域信息融合的端到端深度网络 16.40
    26.10
    文献[48] 2018 年 HICO-DET 多任务训练网络  通过零样本学习方法将 HOI 识别扩展到长类别,实现对未见的动词-对象对的零样本目标检测 6.46
    下载: 导出CSV
  • [1] JOHNSON J, KRISHNA R, STARK M, et al. Image retrieval using scene graphs[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE Computer Society, 2015: 3668-3678.
    [2] LI Y K, OUYANG W L, ZHOU B L, et al. Scene graph generation from objects, phrases and region captions[DB/OL]. (2017-06-31)[2021-02-02]. https://arxiv.org/abs/1707.09700.
    [3] XU D F, ZHU Y K, CHOY C B, et al. Scene graph generation by iterative message passing[EB/OL]. (2017-01-10)[2021-02-02]. https://arxiv.org/abs/1701.02426.
    [4] BERGSTROM T, SHI H. Human-object interaction detection: a quick survey and examination of methods[DB/OL]. (2020-09-27)[2021-02-02]. https://arxiv.org/abs/2009.12950.
    [5] GUPTA A, KEMBHAVI A, DAVIS L S. Observing human-object interactions: using spatial and functional compatibility for recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(10): 1775-1789. doi: 10.1109/TPAMI.2009.83
    [6] ALESSANDRO P, CORDELIA S, VITTORIO F. Weakly supervised learning of interactions between humans and objects[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(3): 601-614. doi: 10.1109/TPAMI.2011.158
    [7] LI L J, LI F F. What, where and who? Classifying events by scene and object recognition[C]//Proceedings of IEEE International Conference on Computer Vision. [S.l.]: IEEE, 2007: 1-8.
    [8] LE D T, UIJLINGS J, BERNARDI R. TUHOI: trento universal human object interaction dataset[C]// Proceedings of the Third Workshop on Vision and Language. Brighton: Brighton University, 2014: 17-24.
    [9] CHAO Y W, WANG Z, HE Y, et al. HICO: a benchmark for recognizing human-object interactions in images[C]//IEEE International Conference on Computer Vision. [S.l.]: IEEE, 2015: 1-9.
    [10] ANDRILUKA M, PISHCHULIN L, GEHLER P, et al. 2d human pose estimation: New benchmark and state of the art analysis[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2014: 3686-3693.
    [11] GUPTA S, MALIK J. Visual semantic role labeling[DB/OL]. (2015-03-17)[2021-02-02]. https://arxiv.org/abs/1505.04474.pdf.
    [12] CHAO Y W, LIU Y, LIU X, et al. Learning to detect human-object interactions[C]//2018 IEEE Winter Conference on Applications of Computer Vision. [S.l.]: IEEE, 2018: 381-389.
    [13] LI Y L, XU L, LIU X, et al. Pastanet: Toward human activity knowledge engine[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2020: 379-388.
    [14] LIAO Y, LIU S, WANG F, et al. PPDM: Parallel point detection and matching for real-time human-object interaction detection[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2020: 479-487.
    [15] ZHUANG B, WU Q, SHEN C, et al. Hcvrd: a benchmark for large-scale human-centered visual relationship detection[C/OL]//Proceedings of the AAAI Conference on Artificial Intelligence, 2018. [2021-02-22]. https://ojs.aaai.org/index.php/AAAI/article/view/12260.
    [16] XU B J, LI J N, YONGKANG W, et al. Interact as You intend:intention-driven human-object interaction detection[J]. IEEE Transactions on Multimedia, 2019, 22(6): 1423-1432.
    [17] ULUTAN O, IFTEKHAR A S M, MANJUNATH B S. Vsgnet: spatial attention network for detecting human object interactions using graph convolutions[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2020: 13617-13626.
    [18] GIRSHICK R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision. [S.l.]: IEEE, 2015: 1440-1448.
    [19] GAO C, ZOU Y, HUANG J B. iCAN: instance-centric attention network for human-object interaction detection[DB/OL]. (2018-08-30)[2021-02-22]. https://arxiv.org/abs/1808.10437.
    [20] WANG T, ANWER R M, KHAN M H, et al. Deep contextual attention for human-object interaction detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. [S.l.]: IEEE, 2019: 5694-5702.
    [21] PENG C, ZHANG X, YU G, et al. Large kernel matters-improve semantic segmentation by global con- volutional network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2017: 4353-4361.
    [22] GIRDHAR R, RAMANAN D. Attentional pooling for action recognition[DB/OL]. (2017-11-04)[2021-02-15]. https://doi.org/10.48550/arXiv.1711.01467.
    [23] BANSAL A, RAMBHATLA S S, SHRIVASTAVA A, et al. Spatial priming for detecting human-object interactions[DB/OL]. (2020-04-09)[2021-02-15]. https://arxiv.org/abs/2004.04851.
    [24] GKIOXARI G, GIRSHICK R, DOLLÁR P, et al. Detecting and recognizing human-object interactions[DB/OL]. (2017-04-24)[2021-02-22]. https://arxiv.org/abs/1704.07333
    [25] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
    [26] GUPTA T, SCHWING A, HOIEM D. No-frills human-object interaction detection: factorization, layout encodings, and training techniques[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. [S.l.]: IEEE, 2019: 9677-9685.
    [27] YU F, WANG D, SHELHAMER E, et al. Deep layer aggregation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2018: 2403-2412.
    [28] ZHOU X Y, WANG D Q, KRÄHENBÜHL P. Objects as points[DB/OL]. (2019-04-16)[2021-02-15]. http://arxiv.org/abs/1904.07850.
    [29] LAW H, DENG J. Cornernet: detecting objects as paired keypoints[C]//Proceedings of the European Conference on Computer Vision. [S.l.]: Springer, 2018: 734-750.
    [30] NEWELL A, YANG K, DENG J. Stacked hourglass networks for human pose estimation[C]//European Conference on Computer Vision. [S.l.]: Springer, 2016: 483-499.
    [31] LI Y L, ZHOU S, HUANG X, et al. Transferable interactiveness knowledge for human-object interaction detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2019: 3585-3594.
    [32] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]//European Conference on Computer Vision. Cham: Springer, 2014: 740-755
    [33] LI J, WANG C, ZHU H, et al. Crowdpose: efficient crowded scenes pose estimation and a new benchmark[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2019: 10863-10872.
    [34] WAN B, ZHOU D, LIU Y, et al. Pose-aware multi-level feature network for human object interaction detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. [S.l.]: IEEE, 2019: 9469-9478.
    [35] CHEN Y, WANG Z, PENG Y, et al. Cascaded pyramid network for multi-person pose estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2018: 7103-7112.
    [36] LIANG Z J, LIU J F, GUAN Y S, et al. Pose-based modular network for human-object interaction detection[DB/OL]. (2020-08-05)[2021-02-22]. https://arxiv.org/abs/2008.02042
    [37] LIANG Z J, LIU J F, GUAN Y S, et al. Visual-semantic graph attention networks for human-object interaction detection[DB/OL]. (2020-01-07)[2021-02-22]. https://arxiv.org/abs/2001.02302
    [38] FANG H S, CAO J, TAI Y W, et al. Pairwise body-part attention for recognizing human-object interactions[C]//Proceedings of the European Conference on Computer Vision. [S.l.]: Springer, 2018: 51-67.
    [39] FANG H S, XIE S, TAI Y W, et al. Rmpe: regional multi-person pose estimation[C]//Proceedings of the IEEE International Conference on Computer Vision. [S.l.]: IEEE, 2017: 2334-2343.
    [40] MALLYA A, LAZEBNIK. Learning models for actions and person-object interactions with transfer to question answering[C]//Proceedings of the European Conference on Computer Vision. [S.l.]: Springer, 2016: 414-428.
    [41] ZHOU P, CHI M. Relation parsing neural network for human-object interaction detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. [S.l.]: IEEE, 2019: 843-851.
    [42] GIRSHICK R, RADOSAVOVIC I, GKIOXARI G, et al.Detectron[CP/OL]. (2020-09-22)[2021-02-11]. https://github.com/facebookresearch/detectron.
    [43] HE K, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision. [S.l.]: IEEE, 2017: 2961-2969.
    [44] QI S, WANG W, JIA B, et al. Learning human-object interactions by graph parsing neural networks[C]//Proceedings of the European Conference on Computer Vision. [S.l.]: Springer, 2018: 401-417.
    [45] LIU H C, MU T J, HUANG X L. Detecting human-object interaction with multi-level pairwise feature network[J]. Computational Visual Media, 2021, 7(2): 229-239. doi: 10.1007/s41095-020-0188-2
    [46] ZHONG X, QU X, DING C, et al. Glance and gaze: inferring action-aware points for one-stage human-object interaction detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2021: 13234-13243.
    [47] LAMPERT C H, NICKISCH H, HARMELING S. Learning to detect unseen object classes by between-class attribute transfer[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). [S.l.]: IEEE, 2009: 951-958.
    [48] SHEN L, YEUNG S, HOFFMAN J, et al. Scaling human-object interaction recognition through zero-shot learning[C]//2018 IEEE Winter Conference on Applications of Computer Vision. [S.l.]: IEEE, 2018: 1568-1576.
    [49] EUM S, KWON H. Semantics to space (S2S): embedding semantics into spatial space for zero-shot verb-object query inferencing[DB/OL]. (2019-06-13)[2022-02-22]. https://arxiv.org/abs/1906.05894
    [50] RAHMAN S, KHAN S, PORIKLI F. Zero-shot object detection: learning to simultaneously recognize and localize novel concepts[DB/OL]. (2018-03-16)[2021-02-22]. https://arxiv.org/abs/1803.06049
    [51] PEYRE J, LAPTEV I, SCHMID C, et al. Detecting unseen visual relations using analogies[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. [S.l.]: IEEE, 2019: 1981-1990.
    [52] ALESSANDRO P, SCHMID C, FERRARI V. Weakly supervised learning of interactions between humans and objects[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 34(3): 601-614.
    [53] PEYRE J, LAPTEV I, SCHMID C, et al. Weakly-supervised learning of visual relations[DB/OL]. (2017-07-29)[2021-02-22]. https://arxiv.org/abs/1707.09472.
    [54] SARULLO A, MU T T. Zero-shot human-object interaction recognition via affordance graphs[DB/OL]. (2020-09-02)[2021-02-22]. https://arxiv.org/abs/2009. 01039.
    [55] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[DB/OL]. (2017-06-12)[2022-02-26]. https://doi.org/10.48550/arXiv.1706.03762
    [56] KIM B, LEE J, KANG J, et al. HOTR: end-to-end human-object interaction detection with transfor- mers[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2021: 74-83.
    [57] TAMURA M, OHASHI H, YOSHINAGA T. QPIC: query-based pairwise human-object interaction detection with image-wide contextual information[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2021: 10410-10419.
  • 期刊类型引用(7)

    1. 孟春成,亐道远,段晓晨. 城市轨道交通土建工程造价非线性预测与反演. 西南交通大学学报. 2025(01): 137-146 . 本站查看
    2. 卫建军,邢天. 矿山有轨电动机车智能化轨道检测系统. 铜业工程. 2025(01): 125-130 . 百度学术
    3. 解婉茹,高彦嵩,杨飞,赵钢,秦航远,危倩. 高速动车组会车横向振动特性及识别方法研究. 铁道科学与工程学报. 2025(02): 523-532 . 百度学术
    4. 熊天运,韦富. 不平衡数据环境下基于GRU-CNN模型的网络安全检测. 信息技术与信息化. 2025(02): 75-78 . 百度学术
    5. 符振涛,李丽敏,王莲霞,任瑞斌,崔成涛,封青青. 基于时间序列与CNN-GRU的滑坡位移预测模型研究. 人民珠江. 2024(02): 1-8 . 百度学术
    6. 徐磊,朱雪燕,金浩然,刘鹏飞,闫斌,余志武. 车辆-轨道系统动力极值预测及可靠度计算. 铁道科学与工程学报. 2024(06): 2142-2150 . 百度学术
    7. 马帅,吴亚锋,郑华,缑林峰. 基于飞行过程数据的航空发动机故障诊断方法研究. 推进技术. 2023(05): 280-291 . 百度学术

    其他类型引用(4)

  • 加载中
图(9) / 表(4)
计量
  • 文章访问数:  1272
  • HTML全文浏览量:  848
  • PDF下载量:  252
  • 被引次数: 11
出版历程
  • 收稿日期:  2021-04-28
  • 修回日期:  2021-09-14
  • 刊出日期:  2021-10-27

目录

/

返回文章
返回