基于注意力机制与光照感知网络的红外与可见光图像融合

杨艳春; 闫岩; 王可

doi:10.3969/j.issn.0258-2724.20230529

基于注意力机制与光照感知网络的红外与可见光图像融合

doi: 10.3969/j.issn.0258-2724.20230529

兰州交通大学电子与信息工程学院，甘肃兰州 730070

基金项目: 长江学者和创新团队发展计划（IRT_16R36）；国家自然科学基金项目（62067006）；甘肃省科技计划（18JR3RA104）；甘肃省高等学校产业支撑计划（2020C-19）；甘肃省教育厅青年博士基金项目（2022QB-067）；甘肃省自然科学基金项目（23JRRA847，21JR7RA300）

详细信息

作者简介:
杨艳春（1979—），女，副教授，博士，研究方向为图像处理、智能信息处理、机器学习，E-mail：yangyanchun102@sina.com

中图分类号: TP391
计量
- 文章访问数: 284
- HTML全文浏览量: 112
- PDF下载量: 55
- 被引次数: 2
出版历程
- 收稿日期: 2023-10-16
- 修回日期: 2024-01-19
- 网络出版日期: 2024-10-22
- 刊出日期: 2024-01-30

Infrared and Visible Image Fusion Based on Attention Mechanism and Illumination-Aware Network

School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China

摘要

摘要:
部分图像融合方法未充分考虑图像环境的光照状况，导致融合图像中出现红外目标亮度不足以及整体画面亮度较低，从而影响纹理细节的清晰度. 为解决上述问题，提出一种基于注意力机制与光照感知网络相结合的红外与可见光图像融合算法. 首先，在训练融合网络之前利用光照感知网络计算当前场景是日间或夜间的概率，将其运用至融合网络损失函数中，用以指导融合网络训练；然后，在网络的特征提取部分采用空间注意力机制和深度可分离卷积对源图像进行特征提取，得到空间显著信息后，输入卷积神经网络（CNN）以提取深度特征；最后，将深度特征信息进行拼接用于图像重建，进而得到最终的融合图像. 实验结果表明：本文方法的互信息（MI）、视觉保真度（VIF）、平均梯度（AG）、融合质量（Qabf）与空间频率（SF）较对比方法分别平均提高39.33%、11.29%、26.27%、47.11%和39.01%；融合后的图像能够有效保留红外目标亮度，且包含丰富的纹理细节信息.
- 图像融合 /
- 注意力机制 /
- 卷积神经网络 /
- 红外特征提取 /
- 深度学习
Abstract:
Some image fusion methods do not fully consider the illumination conditions in the image environment, resulting in insufficient brightness of infrared targets and overall low brightness of the image in the fused image, thereby affecting the clarity of texture details. To address these issues, an infrared and visible image fusion algorithm based on attention mechanism and illumination-aware network was proposed. Firstly, before training the fusion network, the illumination-aware network was used to calculate the probability that the current scene was daytime or nighttime and apply it to the loss function of the fusion network, so as to guide the training of the fusion network. Then, in the feature extraction part of the network, spatial attention mechanism and depthwise separable convolution were used to extract features from the source image. After obtaining spatial salient information, it was input into a convolutional neural network (CNN) to extract deep features. Finally, the deep feature information was concatenated for image reconstruction to obtain the final fused image. The experimental results show that the method proposed in this paper improves mutual information (MI), visual fidelity (VIF), average gradient (AG), fusion quality (Qabf), and spatial frequency (SF) by an average of 39.33%, 11.29%, 26.27%, 47.11%, and 39.01%, respectively. At the same time, it can effectively preserve the brightness of infrared targets in the fused images, including rich texture detail information.
- Image fusion /
- attention mechanism /
- convolutional neural network /
- infrared feature extraction /
- deep learning

HTML全文

红外图像通过红外传感器记录物体发出热辐射信息，广泛应用于目标检测^[1]和军事侦查^[2]等领域. 相较于其他成像方式，红外图像受光照变化和伪装的影响较小^[3]，对目标对象的捕获效果更佳. 然而，由于其成像方式主要依赖于物体发出的热量，红外图像通常缺乏纹理细节^[4]. 相比之下，可见光图像能够反映不同物体反射的光谱信息，其中包含红外图像所缺乏的纹理细节信息^[5]. 但可见光图像受到夜间条件、伪装、烟雾掩蔽、杂乱背景等外部环境的影响，导致目标不够突出^[6]. 因此，红外与可见光图像融合的目的是获得一幅既包含显著的红外目标，又能体现丰富纹理细节信息的融合图像. 迄今为止，红外与可见光图像融合技术已广泛应用于军事行动^[7]、目标检测^[8]、跟踪^[9]、行人识别^[10]和语义分割^[11]等领域.

图像融合算法可分为传统方法和深度学习方法. 传统方法通常利用数学计算方法或滤波器等进行图像的多尺度分解，并根据分解方法的特点设计对应的融合规则. 目前，传统方法包括基于非下采样剪切波变换（NSST）的融合方法^[12]、基于共现滤波器的融合方法^[13]和基于滚动引导滤波的融合方法^[14]等. 对传统方法来说，手工设计的分解方法与融合方法对于日渐复杂的源图像具有一定的局限性，这也势必导致传统算法会越来越复杂，同时，一种算法的优势无法符合特点各异的源图像.

深度学习的图像融合算法可分为端到端方法与非端到端方法. 其中，端到端的融合方法可看作一个黑盒模型，在一个损失函数的约束下，不断优化网络内部权重与参数，使模型输出达到最优效果. 近年来，具有代表性的方法包括：Ma等^[15]采用2个神经网络同步训练的模式，其中生成器负责为红外图像添加纹理细节，鉴别器负责识别生成器生成的融合图像，该方法基于生成对抗网络；Zhang等^[16]提出一种将多个融合问题转化为梯度和强度信息的提取和重建的方法，并据此设计一种由强度项和梯度项组成的通用形式损失函数的压缩分解网络（SDNet）；Li等^[17]提出一种两阶段训练策略融合方法，在第1阶段使用基于创新的nest连接概念训练一个自编码器，在第2阶段则使用一种新的细节保持损失函数和特征增强损失函数训练基于残差结构的残差融合网络（RFN）；Xu等^[18]提出的U2Fusion方法通过特征提取和信息测量，自动估计源图像中各类信息的重要程度，并在融合过程中根据重要程度进行取舍. 非端到端的方法一般是指将前一个模型的输出作为下一个模型的输入，以多个模型串联的方式进行融合. 最具代表性的有：Li等^[19]提出的DenseFuse，该网络的编码层由卷积层、融合层和稠密块组成，其中，DenseBlock在编码网络中尽可能保留深度特征，确保融合策略中使用所有显著特征；Jian等^[20]提出的SEDRFuse是一个具有残差网络的对称编解码器，在融合阶段，利用训练后的提取器提取中间特征和补偿特征，然后将从中间特征得到的2个注意图乘以中间特征进行融合. 上述深度学习方法取得了较好的融合效果，但由于网络优化很大程度上取决于损失函数中各损失项的侧重点，很难做到全面覆盖. 这导致红外目标亮度被中和、整体画面亮度较低、纹理细节不够清晰等问题. 此外，特征融合部分的融合规则设计日趋复杂，很难自适应地调整输入特征，进一步导致融合图像纹理细节体现不够清晰.

为解决上述问题，本文提出一种基于注意力机制与光照感知的红外与可见光图像融合算法.

1. 相关工作

1.1 空间注意力机制

空间注意力机制主要关注图像中的显著目标与纹理细节信息^[21]. 通过空间注意力机制处理后的输入图像，特征更加显著，使后续网络学习更加容易与精准. 为生成二维空间注意力图，首先计算一个二维描述符，该描述符对所有空间位置上每个像素的通道信息进行编码；然后，对二维描述符进行卷积处理，获得原始注意力图；最后，由Sigmoid激活函数生成最终的注意力图.

本文所采用的空间注意力模块（SAM）如所示，将输入图像 ${\boldsymbol{I}}$ 进行通道层面的平均池化（AvgPool）与最大池化（MaxPool），分别得到图像 ${{\boldsymbol{I}}_{\text{e}}}、$ ${{\boldsymbol{I}}_{\text{h}}}$ . 2个图像按照通道拼接（Concat）后，经过卷积层（Conv）与Sigmoid激活函数，得到注意力图 ${{\boldsymbol{I}}_{\text{A}}}$ .

图 1 空间注意力

Figure 1. Spatial attention

下载: 全尺寸图片幻灯片

1.2 深度可分离卷积

深度可分离卷积（DSC）内部包含的具体卷积操作可分为2种：深度卷积和逐点卷积^[22]. 相对传统卷积操作，深度可分离卷积可以大量减少参数量，得到与传统卷积效果相同的特征图.

深度可分离卷积过程如图2所示. 在深度卷积阶段，输入层的每个通道都与一个卷积核进行卷积，旨在提取各通道独立的空间信息. 经过深度卷积后，得到的深度特征图数量与输入图像通道数相同，无法得到数量上的增加. 而这一卷积操作只是对输入图像的每个通道分别进行独立卷积运算，并未充分利用不同通道在相同像素邻域上的重要信息. 随后，逐点卷积操作将各深度特征图有机结合，对各深度特征图进行跨通道加权组合，生成包含更丰富信息的特征图.

图 2 深度可分离卷积

Figure 2. Depthwise separable convolution

下载: 全尺寸图片幻灯片

1.3 光照感知网络

将光照感知网络（IAM）引入红外与可见光图像融合领域，是为了解决融合图像中光照分布不平衡与不真实的问题^[23]. 本文采用的光照感知网络如图3所示. 图中：前4个卷积层Conv卷积核大小为4 × 4，步长为2，用于提取光照信息；LReLu为泄漏ReLu激活函数；GAP为全局平均池化，用于整合光照信息；FC为全卷积层，通过2个全连接层计算得出光照概率.

图 3 光照感知网络

Figure 3. Illumination-aware network

下载: 全尺寸图片幻灯片

将可见光图像输入该子网络，得到估计的光照条件，然后利用光照概率构造光照感知损失，从而解决上述问题. 基于光照感知网络输出概率，构建红外图像与可见光图像在融合过程中应分配得到的权重，分别表示为 ${W_{\text{i}}}$ 、 ${W_{\text{v}}}$ ，如式（1）、（2）所示.

${W_{\text{i}}} = {{{P_{\text{n}}}} / {\left( {{P_{\text{d}}} + {P_{\text{n}}}} \right)}} ，$

(1)

${W_{\text{v}}} = {{{P_{\text{d}}}} / {\left( {{P_{\text{d}}} + {P_{\text{n}}}} \right)}} ，$

(2)

式中： ${P_{\text{d}}}$ 、 ${P_{\text{n}}}$ 分别为可见光图像拍摄于日间、夜间的概率，由光照感知网络对输入可见光图像进行计算得出.

一般日间图像最为重要的信息在于其丰富的纹理细节信息；而夜间图像更加需要显著的红外目标来突出其在较为黑暗背景中的位置.

2. 本文方法

算法结构如所示. 图中， ${{\boldsymbol{M}}_{\text{i}}}$ 与 ${{\boldsymbol{M}}_{\text{v}}}$ 分别为红外图像与可见光图像的空间注意力权重矩阵， ${{\boldsymbol{S}}_{\text{i}}}$ 与 ${{\boldsymbol{S}}_{\text{v}}}$ 分别为红外图像与可见光图像的空间注意力图， ${{\boldsymbol{F}}_{\text{i}}}$ 与 ${{\boldsymbol{F}}_{\text{v}}}$ 分别为红外图像与可见光图像的特征图， ${{\boldsymbol{F}}_{\text{C}}}$ 为特征拼接图.

图 4 融合网络结构

Figure 4. Fusion network structure

下载: 全尺寸图片幻灯片

光照感知网络部分在训练过程中单独训练，利用得到的红外与可见光图像各自的权重构造损失函数，损失函数继续反向传播，优化训练网络参数.

2.1 特征提取

将红外图像 ${{\boldsymbol{I}}_{\text{i}}}$ 与可见光图像 ${{\boldsymbol{I}}_{\text{v}}}$ 输入网络中，经过深度可分离卷积与空间注意力模块，得到各自的空间注意力权重矩阵 ${{\boldsymbol{M}}_{\text{i}}}$ 与 ${{\boldsymbol{M}}_{\text{v}}}$ ，其大小与输入图像大小相同. 矩阵 ${{\boldsymbol{I}}_{\text{i}}}$ （ ${{\boldsymbol{I}}_{\text{v}}}$ ）和矩阵 ${{\boldsymbol{M}}_{\text{i}}}$ （ ${{\boldsymbol{M}}_{\text{v}}}$ ）对应元素相乘后，得到矩阵 ${{\boldsymbol{S}}_{\text{i}}}$ （ ${{\boldsymbol{S}}_{\text{v}}}$ ）.

初步提取空间特征后，将 ${{\boldsymbol{S}}_{\text{i}}}$ 与 ${{\boldsymbol{S}}_{\text{v}}}$ 继续输入至CNN网络中，提取更深层的特征信息，得到红外与可见光特征 ${{\boldsymbol{F}}_{\text{i}}}$ 与 ${{\boldsymbol{F}}_{\text{v}}}$ .

在特征提取与图像重建部分，本文采用卷积神经网络（CNN）框架作为主干. 在特征提取部分包含5个卷积层，目的是充分提取互补和共同特征. 首先，将Conv1-1的卷积核大小设计为1 × 1，目的是减小红外图像与可见光图像之间的模态差异，因此，Conv1-1的权重由红外和可见光图像单独训练得出；然后，利用后面4个共享权重的卷积层提取红外和可见光图像的深层特征. 除Conv1-1外，其余卷积层的卷积核大小均为3 × 3. 5个卷积层都采用LRelu作为激活函数，具体卷积层设置如表1所示.

表 1 特征提取部分卷积核大小与输出通道数

Table 1. Convolution kernel size and output channels in feature extraction part

卷积层	卷积核大小	输出通道数/个
Conv1-1	1 × 1	16
Conv1-2	3 × 3	16
Conv1-3	3 × 3	32
Conv1-4	3 × 3	64
Conv1-5	3 × 3	128

下载: 导出CSV

| 显示表格

2.2 图像重建

将红外图像和可见光图像提取的深度特征 ${{\boldsymbol{F}}_{\text{i}}}$ 与 ${{\boldsymbol{F}}_{\text{v}}}$ 进行拼接，得到特征拼接图 ${{\boldsymbol{F}}_{\text{C}}}$ ，并作为图像重建部分的输入. 最终，通过图像重建得到融合图像 ${{\boldsymbol{I}}_{\text{F}}}$ .

图像重建部分同样包含5个卷积层，负责充分整合公共信息和互补信息，生成融合图像. 除最后一层卷积核大小为1 × 1外，其余层的卷积核大小均为3 × 3. 此外，图像重建部分在图像重建过程中逐渐减少特征映射的通道数. 除最后一层的激活函数为Tanh外，图像重建部分中的所有卷积层均采用LRelu作为激活函数，具体卷积层设置如表2所示.

表 2 图像重建部分卷积核大小与输出通道数

Table 2. Convolution kernel size and output channels in image reconstruction part

卷积层	卷积核大小	输出通道数/个
Conv2-1	3 × 3	256
Conv2-2	3 × 3	128
Conv2-3	3 × 3	64
Conv2-4	3 × 3	32
Conv2-5	1 × 1	1

下载: 导出CSV

| 显示表格

2.3 构建损失函数

2.3.1 融合网络的损失函数

为使融合框架能够根据光照条件自适应地整合有意义的信息，本文使用光照感知损失L_k（式（3））对融合网络进行约束.

${L_{\mathrm{k}}} = {W_{\text{i}}} L_{{\text{i}}} + {W_{\text{v}}} L_{\text{v}},$

(3)

$L_{\text{i}} = {{{{\left\| {{{\boldsymbol{I}}_{\text{F}}} - {{\boldsymbol{I}}_{\text{i}}}} \right\|}_1}} / ({HW})} ，$

(4)

$L_{\text{v}} = {{{{\left\| {{{\boldsymbol{I}}_{\text{F}}} - {{\boldsymbol{I}}_{\text{v}}}} \right\|}_1}} / {(HW)}} ，$

(5)

式中： $L_{\text{i}}$ 与 $L_{\text{v}}$ 分别为红外图像与可见光图像的 ${{\text{L}}_1}$ 范数损失，用于计算融合图像和源图像在像素级之间的差异； $H$ 和 $W$ 分别为图像的高和宽的像素数； ${\left\| {\text{•}} \right\|_1}$ 为 ${{\text{L}}_1}$ 范数计算.

实际上，根据光照情况，融合图像的像素强度分布应该与其源图像一致. 因此，本文使用光照感知权重 ${W_{\text{i}}}$ 和 ${W_{\text{v}}}$ 调整融合图像的强度损失约束.

光照感知损失是根据光照条件动态保持源图像的亮度信息，但融合后的图像不能保持最优亮度分布. 为此，需要进一步引入辅助强度损失 $L_{\text{s}}^{}$ ，如式（6）所示.

$L_{\text{s}}^{} = {{{{\left\| {{{\boldsymbol{I}}_{\text{F}}} - \max\left\{ {{{\boldsymbol{I}}_{\text{i}}},{{\boldsymbol{I}}_{\text{v}}}} \right\}} \right\|}_1}} / {(HW)}} .$

(6)

此外，融合图像在保持最佳强度分布的同时，需要保留丰富的纹理细节，因此，引入纹理损失约束. 融合图像的最佳纹理可以表示为红外和可见光图像纹理的最大值，定义纹理细节损失 $L_{\text{t}}^{}$ 为

$L_{\text{t}}^{} = {{{{\Big\| {\left| {\nabla {{\boldsymbol{I}}_{\text{F}}}} \right| - \max\left\{ {\left| {\nabla {{\boldsymbol{I}}_{\text{i}}}} \right|,\left| {\nabla {{\boldsymbol{I}}_{\text{v}}}} \right|} \right\}} \Big\|}_1}} \Big/ ({HW})} ，$

(7)

式中： $\nabla \left( {\text{•}} \right)$ 为测量图像纹理信息的Sobel梯度算子.

融合网络的全局损失函数L_g是光照感知损失、辅助强度损失和纹理细节损失的组合，表示为

$L_{\text{g}}^{} = {\omega _1}{L_{\mathrm{k}}} + {\omega _2}{L_{\text{s}}} + {\omega _3}{L_{\text{t}}} ，$

(8)

式中： ${\omega _1}$ ～ ${\omega _3}$ 为超参数.

综上所述，本文融合网络可以在光照感知损失和辅助强度损失的约束下，根据照明场景动态保持最优图像亮度分布；在纹理损失约束下，可以获得理想的纹理细节. 因此，本文方法可以将各种光照条件下源图像中的有意义信息得到充分体现.

2.3.2 光照感知网络的损失函数

融合性能在很大程度上依赖于光照感知网络的精度. 光照感知网络本质上是一个分类器，计算图像属于白天和夜间的概率. 因此，采用交叉熵损失 ${L_{\rm{m}}}$ 来约束光照感知网络的训练过程，如式（9）所示.

$L_{\rm{m}} = - x\log \;\varphi \left( y \right) - \left( {1 - x} \right)\log \left( {1 - \varphi \left( y \right)} \right),$

(9)

式中： $x$ 为输入图像的光照标号； $y \in \left\{ {{P_{\text{d}}},{P_{\text{n}}}} \right\}$ ； $\varphi \left( {\text{•}} \right)$ 为softmax函数，用于对 $y$ 进行归一化操作.

3. 实　验

3.1 实验说明

为验证算法性能，本文选取公共数据集TNO中的42组红外与可见光源图像进行实验，选择其中5组已配准图像进行分析，这些图像的大小分别为620 × 450、768 × 576、620 × 450、640 × 480、620 × 450像素. 将本文方法与近年来最具代表性的8种图像融合方法进行对比实验，这8种方法分别为DenseFuse^[19]、FusionGAN^[15]、PMGI^[24]、RFN-Nest^[17]、SDNet^[16]、U2Fusion^[18]、DIVFusion^[10]与PSFusion^[25].

DenseFuse是一种基于稠密连接的融合方法；FusionGAN采用生成对抗网络进行融合；PMGI通过梯度和强度比例维护进行图像融合；RFN-Nest利用两阶段训练策略实现图像融合；SDNet是基于压缩分解网络的融合方法；U2Fusion通过特征提取和信息测量，自动估计源图像的重要性，并进行融合；DIVFusion是一种基于视觉增强的夜间融合算法；PSFusion采用渐进式语义注入和场景保真度约束，完成图像融合.

3.2 训练细节

为生成足够的训练数据，本文光照感知网络在MSRS （multi-spectral road scenes）数据集中选取427张日间场景图像和376张夜间场景图像，并将图像裁剪成64 × 64像素大小的图像块进行训练. 步长设置为64步，经过上述处理，共得到29960个日间图像块和26320个夜间图像块.

同时，利用376对日间图像和376对夜间图像，即26320个日间图像块和26320个夜间图像块训练融合网络参数. 所有图像块在被输入到网络之前进行归一化. 在训练光照感知网络时，使用单一热目标标签作为光照感知网络的参考，将日间和夜间场景的标签分别设置为二维向量[1 0]和[0 1].

首先，训练光照感知网络；然后，利用预训练好的光照感知网络计算光照概率，并在训练融合网络时成为构造光照感知损失的一部分.

光照感知网络训练阶段，参数设置如下：batch size为128，训练轮数100轮，步长438步. 融合网络训练阶段，参数设置如下：batch size为64，训练轮数10轮，步长819步. 模型参数由Adam优化器更新，学习率首先初始化为0.001，然后呈指数衰减. 超参数 ${\omega _1} = 3$ ， ${\omega _2} = 7$ ， ${\omega _3} = 50$ . 该方法在TensorFlow框架上实现. 硬件环境为NVIDIA RTX 3060 Laptop GPU和3.20 GHz AMD Ryzen 7 5800H CPU.

3.3 定性分析

5组实验的融合结果如表3所示，其中，红框内容为局部细节放大图，绿框中为显著的红外目标. 通过对比实验可以看出，本文方法绿色线框内的红外目标更加突出、清晰，而其他方法的红外目标会在融合过程中亮度被可见光图像中和，导致红外目标亮度降低. 本文方法由于采用了光照感知网络，在图像拍摄环境相对阴暗或亮度较低的环境下时，能够在融合图像中更好地还原纹理细节信息，不易出现伪影与图像目标边缘过于平滑与突出的问题，使融合图像更加自然.

表 3 实验结果

Table 3. Experimental results

下载: 导出CSV

| 显示表格

表4为对融合结果中的红外目标进行热力图与三维地形图的定性分析. 图中，红色圆圈为显著红外目标. 从热力图中可以看出：本文方法对红外目标凸显效果相对其他对比方法有明显优势；在三维地形图中，本文方法的红外目标灰度值与红外图像中灰度值最为接近，还原程度较高.

表 4 红外目标分析

Table 4. Infrared target analysis

下载: 导出CSV

| 显示表格

3.4 定量分析

为客观评价图像融合质量，采用6种评价指标进行定量分析，分别为互信息（MI）、视觉保真度（VIF）、平均梯度（AG）、融合质量（Qabf）、信息熵（EN）与空间频率（SF）. 其中：MI为衡量融合图像与源图像的信息相关性的评价指标，即在融合过程中损失的细节信息越少，指标值越大；其余5个指标描述融合图像自身包含的信息量、显著信息、灰度变化率与清晰度，数值越大，对应的融合图像效果越好.

表5给出了对TNO数据集中42组图像平均定量结果，其中：加粗指标为每组的最优指标，下划线指标为次优指标. 如图5所示，本文方法在MI、VIF、Qabf、SF中均处于最优地位. 最优MI意味着本文方法根据光照条件将源图像的大部分信息传输到融合图像中；最优VIF表明本文方法具有最佳的视觉效果；此外，本文方法在Qabf指标中的最优意味着在融合结果中保留了更多的边缘信息.

表 5 客观评价指标对比

Table 5. Comparison of objective evaluation indicators

融合方法	MI	VIF	AG	Qabf	EN	SF
DenseFuse	2.3019	0.8175	3.5600	0.4457	6.8912	0.0352
FusionGAN	2.3352	0.6541	2.4211	0.2341	6.5580	0.0246
PMGI	2.3521	0.8692	3.5981	0.4117	7.0180	0.0344
RFN-Nest	2.1184	0.8183	2.6693	0.3341	6.9632	0.0230
SDNet	2.2606	0.7592	4.6117	0.4294	6.6948	0.0457
U2Fusion	2.0102	0.8197	5.0233	0.4263	6.9967	0.0465
DIVFusion	2.2226	0.9005	5.5595	0.3117	7.5932	0.0465
PSFusion	2.3082	0.9000	5.5979	0.5223	7.2529	0.0478
本文方法	3.1231	0.9008	4.7888	0.5578	6.8794	0.0489

下载: 导出CSV

| 显示表格

图 5 指标对比折线图

Figure 5. Indicator comparison line chart

下载: 全尺寸图片幻灯片

从上述对比实验可以看出，本文方法的融合结果相较于其他对比方法，在有效保留红外目标和避免因图像整体背景亮度过低而导致的纹理细节不清晰问题上有明显改善，整体保留信息较为完整，视觉效果较好.

3.5 消融实验

为验证本文所采用的注意力机制模块与光照感知网络输出权重的有效性，通过加入不同模块对 TNO数据集的42组图像和Roadscene数据集的221组图像进行消融实验，实验结果如表6所示. 其中，Img1与Img2取自TNO数据集，Img3与Img4取自Roadscene数据集.

表 6 消融实验对比

Table 6. Comparison of ablation experiments

下载: 导出CSV

| 显示表格

从图中可以看出，无注意力模块的融合结果中，红外目标相比红外图像中的亮度有所降低，这证明了注意力模块为融合图像中突出红外目标做出明显贡献；光照感知模块为在不同光照条件下（Img3和Img4分别为夜间与日间场景）红外图像中的细节信息在融合图像中的重要程度起重要作用. 当可见光图像亮度不足或为夜间图像时，将红外图像中更多的纹理细节信息添加至融合图像中. 因此，通过消融实验可以证明本文方法中注意力机制模块与光照感知模块分别对融合图像质量影响不容忽视.

4. 结　论

本文提出一种基于注意力机制与光照感知网络的红外与可见光图像融合算法. 在CNN基础网络结构上，利用注意力机制对源图像进行初步特征提取，同时在可见光图像部分使用深度可分离卷积以减少整体网络数据量；在网络训练部分，利用光照感知网络进行预先训练，得到当前场景所处日间或夜间的概率，然后利用这些概率构造光照感知损失，对2张源图像分配不同的权重. 从实验结果可知，本文方法有效改善现有方法中出现的红外目标亮度被中和与融合图像中出现整体场景过暗而导致的纹理细节无法分辨的问题. 在客观评价指标方面，本文与近年来最具代表性的8种图像融合方法进行对比，在融合图像与源图像的相似程度、融合图像所包含的信息量与融合图像的视觉效果方面，均处于优势地位.

然而，本文在训练过程中只使用了单一数据集，对其他应用场景（如道路场景、城市场景等）融合效果无法达到最佳，今后将加大训练数据集所包含的场景，进一步扩大本文方法的应用范围.

图 1 空间注意力

Figure 1. Spatial attention

下载: 全尺寸图片幻灯片

图 2 深度可分离卷积

Figure 2. Depthwise separable convolution

下载: 全尺寸图片幻灯片

图 3 光照感知网络

Figure 3. Illumination-aware network

下载: 全尺寸图片幻灯片

图 4 融合网络结构

Figure 4. Fusion network structure

下载: 全尺寸图片幻灯片

图 5 指标对比折线图

Figure 5. Indicator comparison line chart

下载: 全尺寸图片幻灯片

表 1 特征提取部分卷积核大小与输出通道数

Table 1. Convolution kernel size and output channels in feature extraction part

卷积层	卷积核大小	输出通道数/个
Conv1-1	1 × 1	16
Conv1-2	3 × 3	16
Conv1-3	3 × 3	32
Conv1-4	3 × 3	64
Conv1-5	3 × 3	128

下载: 导出CSV

表 2 图像重建部分卷积核大小与输出通道数

Table 2. Convolution kernel size and output channels in image reconstruction part

卷积层	卷积核大小	输出通道数/个
Conv2-1	3 × 3	256
Conv2-2	3 × 3	128
Conv2-3	3 × 3	64
Conv2-4	3 × 3	32
Conv2-5	1 × 1	1

下载: 导出CSV

表 3 实验结果

Table 3. Experimental results

下载: 导出CSV

表 4 红外目标分析

Table 4. Infrared target analysis

下载: 导出CSV

表 5 客观评价指标对比

Table 5. Comparison of objective evaluation indicators

融合方法	MI	VIF	AG	Qabf	EN	SF
DenseFuse	2.3019	0.8175	3.5600	0.4457	6.8912	0.0352
FusionGAN	2.3352	0.6541	2.4211	0.2341	6.5580	0.0246
PMGI	2.3521	0.8692	3.5981	0.4117	7.0180	0.0344
RFN-Nest	2.1184	0.8183	2.6693	0.3341	6.9632	0.0230
SDNet	2.2606	0.7592	4.6117	0.4294	6.6948	0.0457
U2Fusion	2.0102	0.8197	5.0233	0.4263	6.9967	0.0465
DIVFusion	2.2226	0.9005	5.5595	0.3117	7.5932	0.0465
PSFusion	2.3082	0.9000	5.5979	0.5223	7.2529	0.0478
本文方法	3.1231	0.9008	4.7888	0.5578	6.8794	0.0489

下载: 导出CSV

表 6 消融实验对比

Table 6. Comparison of ablation experiments

下载: 导出CSV

参考文献(25)

[1]	LIU X W, WANG R H, HUO H T, et al. An attention-guided and wavelet-constrained generative adversarial network for infrared and visible image fusion[J]. Infrared Physics and Technology, 2023, 129: 104570.1-104570.16.
[2]	唐霖峰,张浩,徐涵,等. 基于深度学习的图像融合方法综述[J]. 中国图象图形学报,2023,28(1): 3-36. doi: 10.11834/jig.220422 TANG Linfeng, ZHANG Hao, XU Han, et al. Deep learning-based image fusion: a survey[J]. Journal of Image and Graphics, 2023, 28(1): 3-36. doi: 10.11834/jig.220422
[3]	程博阳,李婷,王喻林. 基于视觉显著性加权与梯度奇异值最大的红外与可见光图像融合[J]. 中国光学(中英文),2022,15(4): 675-688. doi: 10.37188/CO.2022-0124 CHENG Boyang, LI Ting, WANG Yulin. Fusion of infrared and visible light images based on visual saliency weighting and maximum gradient singular value[J]. Chinese Optics, 2022, 15(4): 675-688. doi: 10.37188/CO.2022-0124
[4]	杨莘,田立凡,梁佳明,等. 改进双路径生成对抗网络的红外与可见光图像融合[J]. 电子与信息学报,2023,45(8): 3012-3021. doi: 10.11999/JEIT220819 YANG Shen, TIAN Lifan, LIANG Jiaming, et al. Infrared and visible image fusion based on improved dual path generation adversarial network[J]. Journal of Electronics & Information Technology, 2023, 45(8): 3012-3021. doi: 10.11999/JEIT220819
[5]	沈英,黄春红,黄峰,等. 红外与可见光图像融合技术的研究进展[J]. 红外与激光工程,2021,50(9): 152-169. SHEN Ying, HUANG Chunhong, HUANG Feng, et al. Research progress of infrared and visible image fusion technology[J]. Infrared and Laser Engineering, 2021, 50(9): 152-169.
[6]	胡建平,郝梦云,杜影,等. 结构和纹理感知的Retinex融合红外与可见光图像[J]. 光学精密工程,2022,30(24): 3225-3238. doi: 10.37188/OPE.20223024.3225 HU Jianping, HAO Mengyun, DU Ying, et al. Fusion of infrared and visible images via structure and texture-aware retinex[J]. Optics and Precision Engineering, 2022, 30(24): 3225-3238. doi: 10.37188/OPE.20223024.3225
[7]	李霖,王红梅,李辰凯. 红外与可见光图像深度学习融合方法综述[J]. 红外与激光工程,2022,51(12): 337-356. LI Lin, WANG Hongmei, LI Chenkai. A review of deep learning fusion methods for infrared and visible images[J]. Infrared and Laser Engineering, 2022, 51(12): 337-356.
[8]	王银,王立德,邱霁. 基于DenseNet结构的轨道暗光环境实时增强算法[J]. 西南交通大学学报,2022,57(6): 1349-1357. doi: 10.3969/j.issn.0258-2724.20210199 WANG Yin, WANG Lide, QIU Ji. Real-time enhancement algorithm based on DenseNet structure for railroad low-light environment[J]. Journal of Southwest Jiaotong University, 2022, 57(6): 1349-1357. doi: 10.3969/j.issn.0258-2724.20210199
[9]	朱雯青,汤心溢,张瑞,等. 基于边缘保持和注意力生成对抗网络的红外与可见光图像融合[J]. 红外与毫米波学报,2021,40(5): 696-708. doi: 10.11972/j.issn.1001-9014.2021.05.017 ZHU Wenqing, TANG Xinyi, ZHANG Rui, et al. Infrared and visible image fusion based on edge-preserving and attention generative adversarial network[J]. Journal of Infrared and Millimeter Waves, 2021, 40(5): 696-708. doi: 10.11972/j.issn.1001-9014.2021.05.017
[10]	TANG L F, XIANG X Y, ZHANG H, et al. DIVFusion: darkness-free infrared and visible image fusion[J]. Information Fusion, 2023, 91: 477-493. doi: 10.1016/j.inffus.2022.10.034
[11]	李泽琛,李恒超,胡文帅,等. 多尺度注意力学习的Faster R-CNN口罩人脸检测模型[J]. 西南交通大学学报,2021,56(5): 1002-1010. doi: 10.3969/j.issn.0258-2724.20210017 LI Zechen, LI Hengchao, HU Wenshuai, et al. Masked face detection model based on multi-scale attention-driven faster R-CNN[J]. Journal of Southwest Jiaotong University, 2021, 56(5): 1002-1010. doi: 10.3969/j.issn.0258-2724.20210017
[12]	王满利,王晓龙,张长森. 基于动态范围压缩增强和NSST的红外与可见光图像融合算法[J]. 光子学报,2022,51(9): 277-291. WANG Manli, WANG Xiaolong, ZHANG Changsen. Infrared and visible image fusion algorithm based on dynamic range compression enhancement and NSST[J]. Acta Photonica Sinica, 2022, 51(9): 277-291.
[13]	朱文鹏,陈莉,张永新. 基于引导滤波和快速共现滤波的红外和可见光图像融合[J]. 计算机应用研究,2021,38(2): 600-604,610. ZHU Wenpeng, CHEN Li, ZHANG Yongxin. Infrared and visible image fusion based on guided filter and fast co-occurrence filter[J]. Application Research of Computers, 2021, 38(2): 600-604,610.
[14]	MA J L, ZHOU Z Q, WANG B, et al. Infrared and visible image fusion based on visual saliency map and weighted least square optimization[J]. Infrared Physics and Technology, 2017, 82: 8-17. doi: 10.1016/j.infrared.2017.02.005
[15]	MA J Y, YU W, LIANG P W, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26. doi: 10.1016/j.inffus.2018.09.004
[16]	ZHANG H, MA J Y. SDNet: a versatile squeeze-and-decomposition network for real-time image fusion[J]. International Journal of Computer Vision, 2021, 129(10): 2761-2785. doi: 10.1007/s11263-021-01501-8
[17]	LI H, WU X J, KITTLER J. RFN-Nest: an end-to-end residual fusion network for infrared and visible images[J]. Information Fusion, 2021, 73(10): 72-86.
[18]	XU H, MA J Y, JIANG J J, et al. U2Fusion: a unified unsupervised image fusion network[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(1): 502-518. doi: 10.1109/TPAMI.2020.3012548
[19]	LI H, WU X J. DenseFuse: a fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2019, 28(5): 2614-2623. doi: 10.1109/TIP.2018.2887342
[20]	JIAN L H, YANG X M, LIU Z, et al. SEDRFuse: a symmetric encoder–decoder with residual block network for infrared and visible image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 5002215.1-5002215.15.
[21]	WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//European Conference on Computer Vision. Cham: Springer, 2018: 3-19.
[22]	CHOLLET F. Xception: deep learning with depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE, 2017: 1800-1807.
[23]	TANG L F, YUAN J T, ZHANG H, et al. PIAFusion: a progressive infrared and visible image fusion network based on illumination aware[J]. Information Fusion, 2022, 83/84: 79-92. doi: 10.1016/j.inffus.2022.03.007
[24]	ZHANG H, XU H, XIAO Y, et al. Rethinking the image fusion: a fast unified image fusion network based on proportional maintenance of gradient and intensity[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 12797-12804. doi: 10.1609/aaai.v34i07.6975
[25]	TANG L F, ZHANG H, XU H, et al. Rethinking the necessity of image fusion in high-level vision tasks: a practical infrared and visible image fusion network based on progressive semantic injection and scene fidelity[J]. Information Fusion, 2023, 99: 101870.1-101870.16.

施引文献

期刊类型引用(1)
1. 王丹阳，侯米娜. 结合注意力机制与改进UNet的低照度图像增强算法研究. 智能物联技术. 2025(02): 102-105 . 百度学术
其他类型引用(1)

附加材料(0)

访问统计

点击查看大图

图(5) / 表(6)

计量

文章访问数: 284
HTML全文浏览量: 112
PDF下载量: 55
被引次数: 2

1. 相关工作
1.1 空间注意力机制
1.2 深度可分离卷积
1.3 光照感知网络
2. 本文方法
2.1 特征提取
2.2 图像重建
2.3 构建损失函数
3. 实　验
3.1 实验说明
3.2 训练细节
3.3 定性分析
3.4 定量分析
3.5 消融实验
4. 结　论

基于注意力机制与光照感知网络的红外与可见光图像融合

doi: 10.3969/j.issn.0258-2724.20230529

作者简介: 杨艳春（1979—），女，副教授，博士，研究方向为图像处理、智能信息处理、机器学习，E-mail：yangyanchun102@sina.com

计量

出版历程