频谱池化与混洗注意力增强的铁路异物轻量检测

陈永; 王镇; 张娇娇

doi:10.3969/j.issn.0258-2724.20220074

频谱池化与混洗注意力增强的铁路异物轻量检测

doi: 10.3969/j.issn.0258-2724.20220074

陈永^{1, 2,},
王镇¹,
张娇娇¹

1.
兰州交通大学电子信息与工程学院，甘肃兰州 730070
2.
兰州交通大学甘肃省人工智能与图形图像处理工程研究中心，甘肃兰州 730070

基金项目: 国家自然科学基金项目（62462043，61963023）

详细信息

作者简介:
陈永（1979—），男，教授，博士，研究方向为计算机视觉与目标检测，E-mail：edukeylab@126.com

中图分类号: TP391.4；TP183
计量
- 文章访问数: 148
- HTML全文浏览量: 54
- PDF下载量: 36
- 被引次数: 0
出版历程
- 收稿日期: 2022-01-24
- 修回日期: 2022-08-22
- 网络出版日期: 2024-09-21
- 刊出日期: 2022-08-29

Lightweight Detection of Railway Object Intrusion Based on Spectral Pooling and Shuffled-Convolutional Block Attention Module Enhancement

1.
School of Electronics and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China
2.
Gansu Provincial Engineering Research Center for Artificial Intelligence and Graphics & Image Processing, Lanzhou Jiaotong University, Lanzhou 730070, China

摘要

摘要:
针对红外弱光环境下铁路异物侵限检测时存在检测精度低、难以实现轻量化实时检测等问题，提出一种注意力增强的轻量化铁路异物检测方法. 首先，采用深度可分离卷积改进Darknet53特征提取网络，轻量化提取红外弱光场景下的铁路异物特征；其次，利用语义引导的红外频谱池化进行特征增强，提升红外图像下采样的特征质量；然后，提出混洗注意力机制（shuffled-convolutional block attention module, shuffled-CBAM），实现对关键红外目标的特征提取与融合，提高网络对红外目标检测的精度；最后，采用无锚框轻量化网络完成铁路异物侵限检测输出，克服锚框检测非极大值抑制操作实时性差的缺点，减小计算量的同时提高检测效率. 实验结果表明：所提轻量化模型具有较高检测精度，同较改进前模型尺寸减小179.01 MB，检测速率提升至39 帧/s，为YOLOv4方法的3.9倍；相较于对比检测方法，本文所提方法能够快速精确地检测出红外铁路异物.
- 异物检测 /
- 红外弱光 /
- 混洗注意力 /
- 轻量化检测 /
- 高速铁路
Abstract:
In infrared low-light scenes, railway object intrusion detection faces low detection accuracy, and it is difficult to achieve lightweight real-time detection. Therefore, a lightweight detection method of railway object intrusion based on convolutional block attention module (CBAM) enhancement was proposed. Firstly, the Darknet53 feature extraction network was improved by deep separable convolution to achieve lightweight extraction of railway object intrusion characteristics in infrared low-light scenes. Secondly, semantic-guided infrared spectral pooling was used for feature enhancement to improve the feature quality of infrared image downsampling. Then, a shuffled-CBAM was proposed to achieve feature extraction and fusion of key infrared targets and improve the accuracy of infrared target detection. Finally, the lightweight anchor-free network was used to predict the output result of railway object intrusion, overcoming the deficiency of poor real-time performance due to non-maximum value suppression operation with anchor frame detection, and it reduced calculation load and speeded up the detection efficiency. The experimental results show that the lightweight model has higher detection accuracy, and the size of the model is reduced by 179.01 MB after the improvement. The detection rate is increased to 39 frames/s, which is 3.9 times that of the YOLOv4 method. Compared with other detection methods, the proposed method can detect infrared railway object intrusion quickly and accurately.
- objection intrusion detection /
- infrared low-light scene /
- shuffled-CBAM /
- lightweight detection /
- high-speed railway

HTML全文

随着我国高速铁路的快速发展，列车已实现全天候运营. 列车行驶过程中，行人、车辆等异物侵入铁路限界会引发重大交通事故，严重威胁人民生命和财产安全^[1]. 开展侵入铁路限界的异物检测与预警对保障铁路运行安全有着重要的意义. 在弱光等低照度环境下，异物目标特征不明显，将出现不同程度的漏检与误检问题^[2]. 与可见光成像不同，红外光由于辐射波段比可见光长且成像稳定，可以弥补可见光设备在弱光环境下检测效果不佳的问题. 然而，红外成像的探测能力与空间分辨率低于可见光成像，导致红外目标的特征信息少于可见光目标，加之弱光条件下红外图像存在对比度低且外界噪声干扰的问题，造成成像图像细节特征不明显^[3].

目前，针对红外场景中的铁路异物检测，有基于传统红外图像特征增强检测与深度学习检测2种方法. 传统增强方法主要有基于直方图增强、伪彩色处理及滤波变换增强等方法，此类方法存在缺失语义及算法适应性差等问题^[4-6]. 基于深度学习的方法通过对目标特征学习来提升网络检测性能. Fan等^[7]提出一种基于区域建议和卷积神经网络的检测方法，利用角点检测对潜在异物目标区域予以划分，并通过分类器实现异物检测，但该方法受到复杂背景的影响易导致分类器误检；李淼等^[8]通过引入卷积分解与改进多权值损失进行红外目标检测，但特征提取网络结构单一，导致红外特征提取不充分，易造成误检；Du等^[9]采用浅层红外特征与深层语义特征结合小锚框的方法来提升红外检测精度，但因多个红外特征通道级联，导致检测实时性差；Li等^[10]提出一种生成对抗双阶段的铁路异物检测方法进行红外铁路异物检测，但生成对抗网络存在训练不稳定的问题；Guo等^[11]在YOLOv4卷积神经网络的基础上利用多种激活函数实现了对轨道组件的检测，但实时性较低；Zou等^[12]通过融合可见光、偏振及红外图像特征，对红外环境下行人和车辆进行检测，但该方法存在多模态检测，导致实时性差；Meng等^[13]基于深度学习SSD （single shot multibox detector）框架，进行可见光与夜间环境下铁路标志数字的定位和识别，但对形态复杂的红外目标存在检测精度低的缺点；吴双忱等^[14]基于全卷积融合SENet （squeeze and excitation networks）进行红外特征提取，结合分类网络对红外目标点进行分类检测，但该方法存在网络结构复杂所导致实时性差的问题.

综上所述，现有异物目标检测算法主要通过加深网络模型与特征级联来提升对红外目标的特征提取能力，但是存在检测精度低，难以实现轻量化实时检测等问题^[15]. 为此，本文提出一种频谱池化与混洗注意力增强检测模型（spectral pooling and shuffled attention enhancement detection network，SPSAEDN）实现对红外弱光环境下铁路异物的轻量化检测. 主要工作有：首先，利用深度可分离卷积改进Darknet53网络中卷积层，减小前向传播中模型计算量，实现特征网络的轻量化；其次，通过频谱池化红外特征增强，提升下采样质量的同时，避免多尺度级联特征导致模型计算量增加的问题；然后，通过提出的通道混洗注意力模块，融合不同通道红外目标特征信息，提高红外目标检测的精度；最后，通过轻量级无锚框检测网络，实现对红外弱光环境下铁路异物侵限实时检测.

1. 所提方法

1.1 网络整体架构

所提方法的整体网络结构如图1所示，由轻量级Darknet53网络提取特征、语义引导频谱池化特征增强、通道混洗注意力模块和轻量化无锚框检测输出网络4个部分构成.

图 1 所提方法整体框架

Figure 1. Framework of proposed method

下载: 全尺寸图片幻灯片

1.2 轻量Darknet53特征提取网络

在目标检测过程中，原始Darknet53网络通过结合残差块与特征金字塔网络（feature pyramid networks，FPN）加深网络结构，以提高红外目标召回能力^[16]，但加深网络结构会增加检测计算量，降低了检测的实时性. 因此，本文通过深度可分离卷积来改进Darknet53网络，将普通卷积分解成深度卷积与点卷积运算，实现轻量化特征提取，深度可分离卷积结构如所示，图中： $C_1$ 为特征变换之前红外特征的通道数， $C_2$ 为红外特征变换后通道数， $S_1$ 与 $S_2$ 分别为变换前、后红外特征的空间尺度， $K$ 为卷积核的尺寸.

图 2 深度可分离卷积结构

Figure 2. Depthwise separable convolution

下载: 全尺寸图片幻灯片

为对比普通卷积与深度可分离卷积在计算量上的差异，以卷积核大小 $K \times K$ 、输入尺寸 ${S_1} \times {S_1} \times {C_1}$ 与输出尺寸 ${S_2} \times {S_2} \times {C_2}$ 的红外特征为例，进行计算量的对比实验. 标准卷积通过单次计算，完成红外特征尺度与通道变换，其计算量 $S_{{\mathrm{Conv}}}$ 为

$S_{\mathrm{Conv}}=K^2C_1C_2S_2S_2.$

(1)

而深度可分离卷积通过将一个标准化卷积分解为深度卷积与点卷积操作，实现目标特征大小与维度的变换^[17]. 对输入大小为 ${S_1} \times {S_1} \times {C_1}$ 的红外特征各通道进行核大小为 $K \times K$ 的单独卷积处理，实现特征大小进行变换；然后，对得到大小为 ${S_2} \times {S_2} \times {C_1}$ 的红外特征进行 $1 \times 1$ 卷积处理，实现特征通道维度变换；最终得到大小为 ${S_2} \times {S_2} \times {C_2}$ 的红外特征，深度可分离卷积计算量 $D_{{\mathrm{Conv}}}$ 为

$D_{\mathrm{Conv}}=K^2C_1S_2S_2\text{ + }C_1C_2S_2S_2.$

(2)

引入指标 $\eta=D_{\mathrm{Conv}}/S_{\mathrm{Conv}}（\eta\in[0,1]）$ ，比较深度可分离与标准卷积之间的计算量，化简得

$\begin{split} \\[-8pt] \eta=\dfrac{K^2C_1S_2S_2\text{ + }C_1C_2S_2S_2}{K^2C_1C_2S_2S_2}, \end{split}$

(3)

$\eta$ 越接近0，表示深度可分离卷积与标准卷积计算量相差越大，红外异物检测模型轻量化效果越明显. 对式（3）化简得

$\eta = \dfrac{1}{{{C_2}}}{\text{ + }}\dfrac{1}{{{K^2}}}.$

(4)

Darkne-t53网络经过深度可分离卷积改进之后，模型总参数量由58065690个降低至11138746个，参数量大小由221.50 MB降低至42.49 MB，相较改进前模型减小了179.01 MB. 通过深度可分离卷积轻量化改进的Darkne-t53特征提取网络，可实现对红外弱光场景下铁路异物的轻量化特征提取，以此提升检测效率.

1.3 基于语义引导的红外频谱特征增强

特征网络特征提取过程一般采用高频固定尺度下采样操作，但易造成相邻像素丢失红外特征信息^[18]. 此外，现有深度学习红外检测通常基于多尺度级联实现红外特征增强^[19]，而较大通道数的特征级联会增加模型计算，不利于实时检测.

针对以上问题，提出基于语义引导的红外频谱特征增强模块，采用快速傅里叶线性变换对浅层高分辨率红外特征进行频谱池化处理，利用频域信息分布不均匀的特点，对主要红外特征进行提取. 为避免多通道特征级联增加计算量，结合高层红外语义特征，以有效提升红外目标的检测精度. 其结构如所示，图中： $S$ 为空间域特征的空间尺度， $C_{\mathrm{s}}$ 为空间域特征的通道数， $C_{\mathrm{f}}$ 为红外语义特征的通道数， $\gamma$ 为降采样率， $(u_0,v_0)$ 和 $(u_1,v_1)$ 分别表示快速傅里叶变换前、后的红外特征频域坐标.

图 3 基于语义引导的红外频谱特征增强模块

Figure 3. Infrared spectral feature enhancement module based on semantic guidance

下载: 全尺寸图片幻灯片

首先，对大小为 $S \times S \times {C_{\mathrm{s}}}$ 的轻量化Darknet53输出的红外特征进行空间域特征 $f(u_0,v_0)$ 提取，通过快速傅里叶变换实现红外空间域到频率域特征 $F(u_1,v_1)$ 的转换，如式（5）所示.

$\begin{split} & F(u_1,v_1) = \sum\limits_{u_0=0}^{S-1}\sum\limits_{v_0=0}^{S-1}f(u_0,v_0)\mathrm{{e}}^{-2\mathrm{i\text{π}}S^{-1}(u_0u_1 + v_0v_1)},\\ &\quad u_0,v_0,u_1,v_1\in[0,S-1].\end{split}$

(5)

通过确定 $\gamma$ ，实现红外图像频率域中低频特征信息的保留，输出尺寸大小为 $\gamma S\times\gamma S\times C\mathrm{_s}$ 的频率域特征 $\tilde{\mathbf{\mathbf{\mathrm{\mathit{F}}}}}(u_1,v_1)$ ，调整 $\gamma$ 以实现不同尺度的变换. 最后，通过快速傅里叶逆变换，实现红外空间域特征 ${\tilde f}(u_0,v_0)$ 的转换，逆变换过程如式（6）所示.

$\begin{split}\\[-8pt] & \tilde{f}(u_1,v_1)=\dfrac{1}{\gamma^2S^2}\sum\limits_{u_1=0}^{\gamma S-1}\sum\limits_{v_1=0}^{\gamma S-1}\tilde{F}(u_1,v_1){\mathrm{e}}^{-2\mathrm{i\text{π }}(rS)^{-1}(u_0u_1+v_0v_1)}, \\ &\quad u_0,v_0,u_1,v_1\in[0,\gamma S-1]. \end{split}$

(6)

为验证所提模块的有效性，进行特征下采样可视化实验，实验结果如图4所示. 图4（b）中，最大池化下采样后的红外行人轮廓信息失真严重；图4（c）中，平均池化下采样后的红外行人与非机动车目标的边缘存在高频特征严重丢失的问题；而图4（d）中，本文所提方法能够有效保留目标整体轮廓信息，提升了红外图像下采样的特征质量，避免下采样过快导致大量红外特征丢失与模型计算量增加的问题.

图 4 红外特征图像下采样对比实验

Figure 4. Comparison experiments of infrared feature image downsampling

下载: 全尺寸图片幻灯片

1.4 基于通道混洗增强的注意力机制模块

现有轻量化改进中，一般大量使用 $1 \times 1$ 卷积实现通道升维操作，但一定程度上限制了通道间信息传递，降低了模型检测精度. 针对该问题，提出一种通道混洗注意力模块. 通道混洗是一种将红外特征中通道顺序打乱以实现特征信息流通增强的方法，该方法对特征块中通道维度信息进行变形重组，解决大量点卷积操作造成通道特征之间相互约束的问题^[20]. 通道混洗结构如所示，首先，将尺寸大小为 $1 \times 12$ 的红外特征块重塑为3组、每组4通道的红外特征；然后，对得到的红外特征的卷积组数与通道数进行置换操作；最后，将转置后的红外特征进行平展操作，还原为 $1 \times 12$ 的混洗特征，以充分融合各部分特征信息，实现通道混洗操作.

图 5 通道混洗结构

Figure 5. Channel shuffle mechanism

下载: 全尺寸图片幻灯片

在通道混洗的基础上，为进一步对检测目标聚焦，结合注意力机制，提出通道混洗的注意力模型，如所示. 图中：W为输入红外图像的宽度，H为输入红外图像的高度. 对输入红外特征 ${{\boldsymbol{F}}_1} \in {\mathbb{R}^{H \times W \times C}}$ 进行通道平均池化与最大池化操作，将所得两大小为 $1 \times 1 \times C$ 的红外特征输入共享多层感知机（shared-multilayer perceptron, shared-MLP）进行前向映射；将共享多层感知机输出的两通道特征进行元素相加，并通过sigmoid函数激活，得到通道特征 ${{\boldsymbol{M}}_{\mathrm{c}}}$ ，计算式如式（7）所示.

图 6 结合通道混洗的注意力机制结构

Figure 6. Shuffled-CBAM mechanism

下载: 全尺寸图片幻灯片

$\begin{split}\\[-7pt] & {\boldsymbol{M}}_{\mathrm{c}}=\sigma(S_{\mathrm{MLP}}(P_{\mathrm{avg}}(\boldsymbol{\boldsymbol{F}}_1))+S_{\mathrm{MLP}}(P_{\mathrm{max}}(\boldsymbol{\boldsymbol{F}}_1)))= \\ & \quad \sigma(\boldsymbol{W}_1\boldsymbol{W}_0{\boldsymbol{F}}_{\mathrm{Avg,1}}+\boldsymbol{W}_1\boldsymbol{W}_0\boldsymbol{F}_{\mathrm{Max,1}}), \end{split}$

(7)

式中： ${\boldsymbol{F}}_{{\mathrm{Avg}},1}$ 与 ${\boldsymbol{F}}_{{\mathrm{Max}},1}$ 分别为红外特征 ${F_1}$ 经过平均与最大池化后的输出， ${{\boldsymbol{W}}_0}$ 与 ${{\boldsymbol{W}}_1}$ 为共享多层感知机模型中连接系数， $\sigma$ (·)为sigmoid函数激活操作，P_avg(·)和P_max(·)分别为平均池化与最大池化，S_MLP(·)为共享多层感知机映射.

通过共享多层感知机对红外特征进行非线性变换和映射，以此提取表征能力更加丰富的通道特征.

然后，对得到的通道权重进行混洗特征增强，将混洗后权重 $\boldsymbol{S}_{{\boldsymbol{M}}_{\mathrm{c}}}$ 与原特征 ${{\boldsymbol{F}}_1}$ 相乘，得到通道混洗增强的红外特征 ${{\boldsymbol{F}}_2}$ ；最后，对其进行空间注意力处理，通过平均池化与最大池化操作得到2个2维的红外特征，拼接得到大小为 $H \times W \times 2$ 的红外空间特征，经过降维与sigmoid函数激活得到空间注意力权重 ${{\boldsymbol{M}}_{\mathrm{s}}}$ ，如式（8）所示.

$\begin{split} & {\boldsymbol{M}}_{\mathrm{s}}=\sigma(K_{7,7}(P_{\mathrm{avg}}(\boldsymbol{F}_2));(P_{\mathrm{max}}(\boldsymbol{F}_2)))= \\ &\quad\sigma(K_{7,7}(\boldsymbol{F}_{\mathrm{Avg},2};\boldsymbol{F}_{\mathrm{Max},2})), \end{split}$

(8)

式中： ${\boldsymbol{F}}_{{\mathrm{Avg}},2}$ 与 ${\boldsymbol{F}}_{{\mathrm{Max}},2}$ 分别为 ${\boldsymbol{F}}_2$ 经过平均池化与最大池化后的特征， ${K_{7, 7}}$ (·)为通过 $7 \times 7$ 的卷积核对特征进行提取.

通过所提模块处理红外特征，可以提升特征通道间信息交流能力，使不同红外特征信息充分融合，改善了轻量化过程中由于大量点卷积存在所导致的红外模型检测精度下降问题.

为直观验证所提模块的有效性，进行红外弱光场景热力图可视化实验，对比传统卷积、原始注意力机制（CBAM）注意力机制与通道混洗注意力机制的红外目标可视化效果，实验结果如图7所示.

图 7 热力图可视化实验

Figure 7. Heat map visualization experiment

下载: 全尺寸图片幻灯片

图7（b）为传统卷积输出的热力图，可以看出其无法对检测目标聚焦，极易受到背景中建筑、树木等干扰；图7（c）为原始CBAM输出的热力图可视化结果，该方法对于红外目标聚焦能力有限，无法聚焦全部待检测目标；图7（d）为本文所提方法结果，该方法能够有效排除周围背景建筑与树木等杂波信息的干扰，对红外目标进行准确聚焦，增强了对侵限红外目标的关注度，进一步提升模型对红外检测目标的针对性.

1.5 轻量化无锚框检测输出网络

现有锚框红外检测算法在回归过程中需对同一红外目标的多候选框进行非极大值抑制（non-maximum suppression，NMS）处理，但该操作计算量大，不利于轻量化实时检测^[21]. 针对该问题，进一步采用轻量化的无锚框检测网络优化回归计算，实现对铁路异物轻量化预测.

所提方法中无锚框轻量检测输出网络由置信度预测网络 $\hat {\boldsymbol{Y}} \in {\mathbb{R}^{128 \times 128 \times 64}}$ 、偏移量预测网络 $\hat {\boldsymbol{O}} \in {\mathbb{R}^{128 \times 128 \times 2}}$ 及锚框尺寸预测网络 $\hat {\boldsymbol{S}} \in {\mathbb{R}^{128 \times 128 \times 2}}$ 3个部分组成，分别计算网络模型的分类损失 $L_{\mathrm{\mathit{C}_l}}$ 、偏移量损失 ${L_{{\mathrm{Off}}}}$ 及锚框损失 ${L_{{\mathrm{Si{\textit z}e}}}}$ . 对输入红外特征的中心点通过高斯变换映射至热值图 ${\boldsymbol{Y}} \in {\mathbb{R}^{128 \times 128 \times 64}}$ ，如式（9）所示. $\hat{\boldsymbol{Y}}$ 和Y中的任一元素取值范围为[0,1].

$Y_{x,y,C\mathrm{_l}}=\exp\left(-\frac{\left(x-\mathrm{ent}\left(\dfrac{x_1\rm{+}\rm{\mathit{x}}_2}{4R}\right)\right)^2+\left(y-\mathrm{ent}\left(\dfrac{y_1+y_2}{4R}\right)\right)^2}{2\sigma_{\mathrm{p}}^2}\right),$

(9)

式中：x、y分别为红外特征中心点的横、纵坐标； $Y_{{\mathrm{x,y}},C\mathrm{_l}}$ 为中心点（x,y）是第C_l类目标中点的概率； ${x_1}、{y_1}、{x_2}、{y_2}$ 均为第C_l类红外目标真实框的尺寸； $R$ 为前向训练中特征图变换的尺度， $R = 4$ ； $\sigma_{\mathrm{p}}$ 为红外目标自适应标准差.

对红外热值图结合置信度网络进行红外目标类别损失计算，如式（10）所示.

$L_{\rm{\mathit{C}_l}}=-\frac{1}{N}\sum_{(x,y)}^{ }\sum_{C_{\mathrm{l}}}^{ }\left\{ \begin{array}{l}\left(1-\hat{Y}_{x,y,C_{\mathrm{l}}}\right)^{\alpha}\mathrm{log}\ \hat{Y}_{x,y,C\mathrm{_l}},\quad Y_{x,y,C_{\mathrm{l}}}=1, \\ \left(1-Y_{x,y,C_{\mathrm{l}}}\right)^{\beta}\hat{Y}_{x,y,C\mathrm{_l}}^{\alpha}\mathrm{log}\left(1-\hat{Y}_{x,y,C\mathrm{_l}}\right), \\ \quad\ 其他.\end{array}\right.$

(10)

式中： $\hat{Y}_{x,y,C\mathrm{_l}}$ 为中心点(x,y)被预测为第C_l类目标中点的概率， $\alpha$ 与 $\beta$ 为超参数， $N$ 为红外图中关键点的数量.

训练过程中目标真实框中心点 $p$ 在特征尺度变换后得到中心点 $\tilde{p}=\mathrm{ent}\left(p/R\right)$ . 对变换后中心点 $\tilde p$ 进行偏移量预测，依据中心点偏移量预测结果 ${\hat O_{\tilde p}}$ 计算偏移量损失 ${L_{{\mathrm{Off}}}}$ ，如式（11）所示.

$L_{\mathrm{Off}}=\dfrac{1}{N}\sum\limits\left|\hat{O}_{\tilde{p}}-\left(\dfrac{p}{R}-\tilde{p}\right)\right|.$

(11)

以真实红外目标锚框尺寸 $\tilde {\boldsymbol{s}}$ 为基础，通过红外目标尺寸预测网络 ${\boldsymbol{S}}$ 完成目标宽高预测，得到目标尺寸的预测结果 ${\hat {\boldsymbol{S}} _p}$ . 目标尺寸 $\tilde {\boldsymbol{s}}$ 与尺度损失 ${L_{{\mathrm{Si{\textit z}e}}}}$ 的计算如式（12）～（13）所示.

$\tilde s = ({x_2} - {x_1},{y_2} - {y_1}) ,$

(12)

$\hat {\boldsymbol{S}}_p=(S_{{\mathrm{k}}p},S_{{\mathrm{g}}p}),$

(13)

${L_{{\mathrm{Si{\textit z}e}}}} = \dfrac{1}{2N}\sum\limits^{} \left(|S_{{\mathrm{k}}p}-(x_2-x_1)|+|S_{{\mathrm{g}}p}-(y_2-y_1)| \right).$

(14)

通过线性结合类别、尺寸与偏移量损失，得到所提方法网络整体损失 ${L_{{\text{Net}}}}$ 为

${L_{{\text{Net}}}} = {L_{{\mathrm{Cls}}}} + {\lambda _{{\mathrm{Si{\textit z}e}}}}{L_{{\mathrm{Si{\textit z}e}}}} + {\lambda _{{\mathrm{Off}}}}{L_{{\mathrm{Off}}}}，$

(15)

式中： ${\lambda _{{\mathrm{Si{\textit z}e}}}}$ 为预测锚框尺寸损失权重， ${\lambda _{{\mathrm{Off}}}}$ 为偏移量损失的权重.

对式（15）中预测锚框尺寸损失函数 ${L_{{\mathrm{Si{\textit z}e}}}}$ 设计时，为减少计算量，对于待检测类别均使用单一尺寸预测，为调节该损失函数对检测结果的影响，一般通过系数 ${\lambda _{{\mathrm{Si{\textit z}e}}}}$ 进行调节. 文献[22]通过实验分析，得出该权重取值为0.1时可以获得较高的精度，对于较大的值，会导致模型预测平均精度急剧下降，这是因为该损失函数的尺度范围是从0映射输出到大小为W/R或H/R的大区间范围，其中，在这种情况下，采用较小的权重系数，可以弱化不同尺度类别目标之间的尺度差异性，可以有效克服单一尺寸预测的不足，因此本文中 ${\lambda _{{\mathrm{Si{\textit z}e}}}}$ = 0.1. 此外，对于式（14）中偏移量损失函数 ${L_{{\mathrm{Off}}}}$ ，该函数的主要作用是为克服变换尺度下采样所检测带来的离散误差，通过对每一个中心点额外预测一个局部偏移量进行补偿. 但在无锚框检测模型中，所有类别关键点都共用同一个偏移预测，该损失函数通过L1 Loss方式进行训练. 因此，为降低关键点在特征图和原图之间的训练偏移误差，将对应偏移量损失的权重 ${\lambda _{{\mathrm{Off}}}}$ 取值为1，可以提高偏移量预测精度. 综上所述，式（14）总体损失函数的设计结合了预测网络的不同输出，克服了有锚框检测非极大值抑制操作导致实时性差的缺点，且在减小计算量的同时可以提高检测效率.

2. 实验结果与分析

2.1 实验数据与实验环境

因目前没有公开夜间红外铁路异物侵限数据集，为获取足够多夜间铁路异物侵限的红外数据集，本文首先选取FLIR公司发布的红外夜间交通数据集，并利用红外摄像机在铁路场地拍摄红外夜间异物图像，结合LabelImg工具进行数据集的制作，共计11000张图片，其中70%作为训练集，30%作为测试集. 模型参数取值如下：学习率为0.001，批量大小为8， $\alpha=2$ ， $\beta=4$ ^[22]. 实验采用pytorch深度学习框架进行环境配置，显卡采用NVIDIA GeForce GTX 1660，在相同环境下进行对比算法实验.

2.2 红外弱光下行人侵限检测实验

为验证所提轻量级方法的检测效果，首先进行红外弱光环境下近远景与多目标行人侵限实验，实验结果如图8所示. 图中，①为近远景行人侵限实验，②为多行人侵限实验. 由图可知：文献[10]方法出现漏检及检测精度较低的问题，这是由于该方法3层简单卷积操作进行生成器编码，无法有效对多目标异物特征进行提取，导致出现漏检及检测置信度较低的问题；文献[11]方法采用划分网格对红外目标回归预测，存在检测置信度偏低的问题；本文方法能够有效检测出全部红异物目标与铁轨限界区域，整体检测效果较比较方法更优.

图 8 红外近远景多目标侵限铁路实验

Figure 8. Infrared near and long-range railway multi-object intrusion detection experiment

下载: 全尺寸图片幻灯片

2.3 红外弱光下多类别铁路异物侵限检测实验

弱光环境下的多类别铁路异物侵限检测实验结果如图9所示. 图中，①为红外非机动车遮挡行人目标的检测结果，②为红外行人目标与石块小目标侵限的检测结果. 由图可知：文献[10]方法红外行人检测易受到非机动车遮挡的影响，测锚框范围不准确，伴随检测置信度下降的问题，并且存在红外行人与石块小目标漏检，导致模型整体检测精度低；文献[11]方法对红外石块小目标特征提取不充分，存在漏检；本文方法对于遮挡及石块等小目标能够有效检测，且检测模型的精度较高.

图 9 红外多类别异物侵限铁路实验

Figure 9. Infrared multi-category railway object intrusion experiment

下载: 全尺寸图片幻灯片

2.4 复杂场景下红外铁路异物侵限检测实验

为验证所提方法在复杂交通场景下的整体检测效果，选取铁路道口进行现场测试，此处大量行人与机动车穿越铁路道口，并且存在建筑信息与背景噪声信息的干扰，待检测环境较复杂. 实验结果如图10所示，图中，①为私家车与弱目标侵限检测结果，②为农用车与弱目标侵限检测结果. 由图可知：文献[10]方法对铁轨区域、私家车及农用车能够有效检测，但对遮挡弱目标存在检测置信度低与漏检；文献[11]方法因回归锚框预测过程中易受到相互遮挡弱目标的影响，导致预测置信度偏低；本文方法对存在遮挡的弱目标可以实现有效检测，并且检测过程中不易受到背景及其他杂波噪声的干扰，模型检测更加稳定.

图 10 复杂场景下红外铁路异物侵限检测实验

Figure 10. Infrared railway object intrusion detection experiment in complex scenes

下载: 全尺寸图片幻灯片

2.5 模型检测与分类指标分析

为客观衡量各种方法的综合检测性能，进行平均检测精度、每秒处理帧数（FPS）与模型尺寸的定量对比. 其中，平均检测精度与FPS值越大，表示模型检测性能越好；模型尺寸越小，表示计算量越小，越有利于轻量检测. 实验数据如表1所示，表中加粗的数据表示在对应评价指标下表现最优.

表 1 不同异物检测方法性能对比

Table 1. Performance comparison of different object intrusion detection methods

实验方法	模型大小/MB	平均检测精度/%	FPS/（帧·s⁻¹）
文献[10]	92.62	74.25	24
文献[11]	244.26	82.62	10
本文	42.49	80.25	39

下载: 导出CSV

| 显示表格

对表1中数据进行分析发现，文献[10]采用生成对抗网络的方法进行异物检测，相较于文献[11]，其FPS较高，约为24帧/s，但存在红外目标特征提取不足导致检测平均检测精度最低，平均检测精度仅为74.25%，在3种方法中该指标最低. 文献[11]结合CSP Darknet53特征网络与路径聚合PANet模块，在级联不同尺度红外特征的基础上进行自适应融合提升检测精度，其检测精度在3种方法中最高，为82.62%，但该方法参数模型空间过大，为244.26 MB，不利于实时检测. 所提方法结合轻量改进Darknet53网络提取的语义特征与频谱池化实现特征增强，以及利用通道混洗注意力机制和无锚框网络实现实时轻量检测，其平均检测精度值为80.25%，略低于文献[11]，同时模型参数量为42.49 MB，在对比方法中尺寸最小. 此外，所提方法检测速率提升至39帧/s，为文献[11] YOLOv4方法的3.9倍.

为进一步客观评价所提方法对不同种类铁路红外异物的检测效果，采用检测准确率、召回率与平衡F分数（F1-Score）3个评价指标对不同类别的红外铁路异物进行检测分析，如表2所示.

表 2 所提方法分类性能实验

Table 2. Experiments on classification performance of proposed method

异物种类	准确率/%	召回率/%	F1-Score
自行车	99.36	97.74	0.9854
铁路	93.83	93.91	0.9387
行人	83.16	83.67	0.8341
卡车	76.45	79.26	0.7783
汽车	77.86	77.21	0.7753
石块	70.47	70.53	0.7050

下载: 导出CSV

| 显示表格

从表2可以看出，所提方法对于红外弱光环境下特征相对明显的非机动车、铁轨及行人等目标具有较好的分类检测性能，其F1-Score值较高，该值越大，说明模型检测性能越好. 对于红外特征相对不明显的石块等小目标，本文F1-Score指标数值有所下降，但从图9红外多类别异物侵限铁路实验中可知，文献[10]和文献[11]方法对于红外石块小目标难以提取有效特征，存在漏检的问题，对比方法均无法完成有效检测. 综合上述实验及客观评价，可以得出所提方法在红外弱光环境下模型检测性能更优.

2.6 计算复杂度分析

在深度学习目标检测网络模型中，一般通过计算量，即模型的运算次数来衡量模型计算复杂度. 该评价值越小，说明模型计算复杂度越低. 不同方法计算复杂度比较，如表3所示.

表 3 模型计算量对比实验

Table 3. Comparative experiment of model calculation load

实验方法	文献[10]	文献[11]	本文
计算量	176.38	90.58	69.98

下载: 导出CSV

| 显示表格

从表3可以发现，文献[10]方法计算量数值在3种方法中最大，这是因为该方法通过生成对抗网络并结合SSD检测方法进行目标检测，但生成对抗网络博弈对抗及SSD模型中大量不同尺度锚框的计算，会导致该方法计算复杂度最高. 文献[11]采用YOLOv4卷积神经网络实现目标检测，但该方法采用非极大值抑制NMS操作，来抑制冗余候选框，上述操作使得该方法计算复杂度较高. 而本文方法基于轻量化无锚框网络模型，并利用深度可分离卷积改进了Darknet53网络特征提取操作，减小了模型计算量，在3种方法中本文方法计算复杂度最低.

3. 结　论

1）提出一种频谱池化与混洗注意力增强的红外弱光场景下铁路异物轻量化检测方法. 所提方法在保持较高检测精度的同时，克服现有侵限检测算法实时性差与难以实现轻量化的问题，实现了红外铁路异物实时轻量检测.

2）所提轻量化模型模型参数量大小减少至42.49 MB，相较所提原始模型减小了179.01 MB；且检测速率提升至39帧/s，为YOLOv4方法的3.9倍，所提轻量化检测模型较其他方法能够稳定快速地检出红外铁路异物，客观评价优于其他方法，能够更好地满足铁路异物全天候检测需求.

致谢：兰州交通大学重点研发项目（ZDYF2304）；兰州交通大学天佑创新团队（TY202003）.

图 1 所提方法整体框架

Figure 1. Framework of proposed method

下载: 全尺寸图片幻灯片

图 2 深度可分离卷积结构

Figure 2. Depthwise separable convolution

下载: 全尺寸图片幻灯片

图 3 基于语义引导的红外频谱特征增强模块

Figure 3. Infrared spectral feature enhancement module based on semantic guidance

下载: 全尺寸图片幻灯片

图 4 红外特征图像下采样对比实验

Figure 4. Comparison experiments of infrared feature image downsampling

下载: 全尺寸图片幻灯片

图 5 通道混洗结构

Figure 5. Channel shuffle mechanism

下载: 全尺寸图片幻灯片

图 6 结合通道混洗的注意力机制结构

Figure 6. Shuffled-CBAM mechanism

下载: 全尺寸图片幻灯片

图 7 热力图可视化实验

Figure 7. Heat map visualization experiment

下载: 全尺寸图片幻灯片

图 8 红外近远景多目标侵限铁路实验

Figure 8. Infrared near and long-range railway multi-object intrusion detection experiment

下载: 全尺寸图片幻灯片

图 9 红外多类别异物侵限铁路实验

Figure 9. Infrared multi-category railway object intrusion experiment

下载: 全尺寸图片幻灯片

图 10 复杂场景下红外铁路异物侵限检测实验

Figure 10. Infrared railway object intrusion detection experiment in complex scenes

下载: 全尺寸图片幻灯片

表 1 不同异物检测方法性能对比

Table 1. Performance comparison of different object intrusion detection methods

实验方法	模型大小/MB	平均检测精度/%	FPS/（帧·s⁻¹）
文献[10]	92.62	74.25	24
文献[11]	244.26	82.62	10
本文	42.49	80.25	39

下载: 导出CSV

表 2 所提方法分类性能实验

Table 2. Experiments on classification performance of proposed method

异物种类	准确率/%	召回率/%	F1-Score
自行车	99.36	97.74	0.9854
铁路	93.83	93.91	0.9387
行人	83.16	83.67	0.8341
卡车	76.45	79.26	0.7783
汽车	77.86	77.21	0.7753
石块	70.47	70.53	0.7050

下载: 导出CSV

表 3 模型计算量对比实验

Table 3. Comparative experiment of model calculation load

实验方法	文献[10]	文献[11]	本文
计算量	176.38	90.58	69.98

下载: 导出CSV

参考文献(22)

[1]	TIAN R L, SHI H M, GUO B Q, et al. Multi-scale object detection for high-speed railway clearance intrusion[J]. Applied Intelligence, 2022, 52(4): 3511-3526. doi: 10.1007/s10489-021-02534-9
[2]	CHEN J B, TALLEY J, KELLY K F. Infrared object classification with a hybrid optical convolution neural network[J]. Applied Optics, 2021, 60(25): G224-G231. doi: 10.1364/AO.427973
[3]	刘可佳,马荣生,唐子木,等. 采用优化卷积神经网络的红外目标识别系统[J]. 光学精密工程,2021,29(4): 822-831. doi: 10.37188/OPE.20212904.0822 LIU Kejia, MA Rongsheng, TANG Zimu, et al. Design of infrared target recognition system with optimized convolutional neural network[J]. Optics and Precision Engineering, 2021, 29(4): 822-831. doi: 10.37188/OPE.20212904.0822
[4]	LI Y S, LI Z Z, ZHANG C, et al. Infrared maritime dim small target detection based on spatiotemporal cues and directional morphological filtering[J]. Infrared Physics and Technology, 2021, 115: 103657.1-103657.19. doi: 10.1016/j.infrared.2021.103657
[5]	LI Q, NIE J Y, QU S C. A small target detection algorithm in infrared image by combining multi-response fusion and local contrast enhancement[J]. Optik, 2021, 241: 166919.1-166919.12. doi: 10.1016/j.ijleo.2021.166919
[6]	HAN J H, LIU C Y, LIU Y C, et al. Infrared small target detection utilizing the enhanced closest-mean background estimation[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 645-662. doi: 10.1109/JSTARS.2020.3038442
[7]	FAN M M, TIAN S Q, LIU K, et al. Infrared small target detection based on region proposal and CNN classifier[J]. Signal, Image and Video Processing, 2021, 15(8): 1927-1936. doi: 10.1007/s11760-021-01936-z
[8]	李淼,林再平,樊建鹏,等. 基于深度时空卷积神经网络的点目标检测(英文)[J]. 红外与毫米波学报,2021,40(1): 122-132. doi: 10.11972/j.issn.1001-9014.2021.01.017 LI Miao, LIN Zaiping, FAN Jianpeng, et al. Point target detection based on deep spatial-temporal convolution neural network[J]. Journal of Infrared and Millimeter Waves, 2021, 40(1): 122-132. doi: 10.11972/j.issn.1001-9014.2021.01.017
[9]	DU J M, LU H Z, HU M F, et al. CNN-based infrared dim small target detection algorithm using target-oriented shallow-deep features and effective small anchor[J]. IET Image Processing, 2021, 15(1): 1-15. doi: 10.1049/ipr2.12001
[10]	LI Y D, LIU Y, DONG H, et al. Intrusion detection of railway clearance from infrared images using generative adversarial networks[J]. Journal of Intelligent & Fuzzy Systems, 2021, 40(3): 3931-3943.
[11]	GUO F, QIAN Y, SHI Y F. Real-time railroad track components inspection based on the improved YOLOv4 framework[J]. Automation in Construction, 2021, 125: 1-15. doi: 10.1016/j.autcon.2021.103596
[12]	ZOU W, YIN G D, LIU H J, et al. Low-observable Target detection method for autonomous vehicles based on multi-modal feature fusion[J]. China Mechanical Engineering, 2021, 32(9): 1114-1125.
[13]	MENG L, SUN X Y, ZHAO B, et al. An identification method of high-speed railway sign based on convolutional neural network[J]. Acta Automatica Sinica, 2020, 46(3): 518-530.
[14]	吴双忱,左峥嵘. 基于深度卷积神经网络的红外小目标检测[J]. 红外与毫米波学报,2019,38(3): 371-380. doi: 10.11972/j.issn.1001-9014.2019.03.019 WU Shuangchen, ZUO Zhengrong. Small target detection in infrared images using deep convolutional neural networks[J]. Journal of Infrared and Millimeter Waves, 2019, 38(3): 371-380. doi: 10.11972/j.issn.1001-9014.2019.03.019
[15]	LI Y D, DONG H, LI H G, et al. Multi-block SSD based on small object detection for UAV railway scene surveillance[J]. Chinese Journal of Aeronautics, 2020, 33(6): 1747-1755. doi: 10.1016/j.cja.2020.02.024
[16]	HSIEH C C, LIN Y W, TSAI L H, et al. Offline deep-learning-based defective track fastener detection and inspection system[J]. Sensors and Materials, 2020, 32(10): 3429.1-3429.14. doi: 10.18494/SAM.2020.2921
[17]	LIU S W, YU L, ZHANG D K. An efficient method for high-speed railway dropper fault detection based on depthwise separable convolution[J]. IEEE Access, 2019, 7: 135678-135688. doi: 10.1109/ACCESS.2019.2942079
[18]	ZHOU A R, XIE W X, PEI J H. Background modeling in the Fourier domain for maritime infrared target detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 30(8): 2634-2649. doi: 10.1109/TCSVT.2019.2922036
[19]	李恒超,刘香莲,刘鹏,等. 基于多尺度感知的密集人群计数网络[J]. 西南交通大学学报,2024,59(5): 1176-1183,1214. doi: 10.3969/j.issn.0258-2724.20220823 LI Hengchao , LIU Xianglian , LIU Peng , et al. Dense crowd counting network based on multi-scale perception[J]. Journal of Southwest Jiaotong University, 2024, 59(5): 1176-1183,1214. doi: 10.3969/j.issn.0258-2724.20220823
[20]	YANG K, CHANG S L, TIAN Z X, et al. Automatic polyp detection and segmentation using shuffle efficient channel attention network[J]. Alexandria Engineering Journal, 2022, 61(1): 917-926. doi: 10.1016/j.aej.2021.04.072
[21]	CHEN Y W, SONG B, ZENG Y, et al. A deep learning-based approach for fault diagnosis of current-carrying ring in catenary system[J]. Neural Computing and Applications, 2023, 35(33): 23725-23737. doi: 10.1007/s00521-021-06280-4
[22]	ZHOU X, WANG D, KRAHENBUHL P. Objects as points[J]. Applied Physics Reviews, 2019, 1904: 07850.1-07850.12.