顾及边缘的多时相SAR图像半监督建筑区提取

陈帅霖; 杨文; 李恒超; TAPETEDeodato; BALZTimo

doi:10.3969/j.issn.0258-2724.20220807

顾及边缘的多时相SAR图像半监督建筑区提取

doi: 10.3969/j.issn.0258-2724.20220807

1.
武汉大学电子信息学院，湖北武汉 430072
2.
西南交通大学信息科学与技术学院，四川成都 611756
3.
意大利航天局（ASI），罗马 00133
4.
武汉大学测绘遥感信息工程国家重点实验室，湖北武汉 430079

基金项目: 国家自然科学基金项目（61771351）

详细信息

作者简介:
陈帅霖（1997—），男，硕士，研究方向为遥感图像分割，E-mail：slchen1997@whu.edu.cn

通讯作者:
杨文（1976—），男，教授，研究方向为图像处理与计算机视觉，E-mail：yangwen@whu.edu.cn

中图分类号: TP751；P237
计量
- 文章访问数: 342
- HTML全文浏览量: 177
- PDF下载量: 51
- 被引次数: 0
出版历程
- 收稿日期: 2022-11-21
- 修回日期: 2023-03-16
- 网络出版日期: 2024-06-26
- 刊出日期: 2023-03-24

Edge-Aware Semi-Supervised Built-up Area Extraction Using Multi-Temporal Synthetic Aperture Radar Images

1.
Electronic Information School, Wuhan University, Wuhan 430072, China
2.
School of Information Science and Technology, Southwest Jiaotong University, Chengdu 611756, China
3.
Agenzia Spaziale Italiana (ASI), Rome 00133, Italy
4.
State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China

摘要

摘要:
针对合成孔径雷达（synthetic aperture radar，SAR）图像中建筑区域难以辨识与标注的问题，提出一种结合改进的伪标签技术和边缘增强策略的半监督建筑区提取新方法. 首先，引入同一位置、不同时相的SAR图像作为自然数据增强手段，并通过多个不同时相图像的预测结果投票确定伪标签；其次，设计一种边缘增强辅助模块，通过特征图变形以修正建筑区主体特征，辅以跳跃连接改进边缘特征，并针对主体和边缘特征进行分离式监督；此外，构建一个包含2种传感器和2个城市区域的多时相SAR图像建筑区提取数据集，含1000幅带标注图像和800组无标注时序图像，并基于该数据集进行实验验证. 实验表明，在所构建测试集上，基线方法使用全量数据训练后交并比（intersection over union, IoU）为63.43%，而所提方法在使用10%和全量数据时IoU分别为63.46%和68.24%，仅利用10%的标注数据即可达到基线方法使用全量标注数据训练的精度.
- 建筑区提取 /
- 合成孔径雷达 /
- 半监督学习 /
- 边缘提取
Abstract:
To address the challenges of identifying and annotating built-up areas in synthetic aperture radar (SAR) images, a novel semi-supervised method for extracting built-up areas that combined improved pseudo-labeling techniques with an edge enhancement strategy was proposed. Initially, SAR images from the same location but at different time were introduced as a natural data augmentation method, and the pseudo-labels were determined by voting based on the prediction results of multi-temporal images. Subsequently, an edge-enhancement auxiliary module was designed, which corrected the body features of the built-up areas through feature map warping and improved edge features with skip connections. Separate supervision for the body and edge features was performed. Moreover, a dataset for extracting built-up areas in multi-temporal SAR images, which included two types of sensors and two urban areas, was constructed. This dataset contains 1,000 annotated images and 800 groups of unlabeled temporal images. Experimental validations based on this dataset have demonstrated that on the constructed test set, the baseline method trained with full data achieves an intersection over union (IoU) of 63.43%, while the proposed method reaches an IoU of 63.46% and 68.24% when using 10% and full data, respectively. Remarkably, using only 10% of the annotated data, the proposed method can achieve the precision that the baseline method has obtained with full annotated data.
- built-up area extraction /
- synthetic aperture radar /
- semi-supervised learning /
- edge extraction

HTML全文

合成孔径雷达（synthetic aperture radar, SAR）以其独特的全天时、全天候^[1]能力，能够在恶劣天气和夜晚条件下正常工作，是遥感影像的重要来源. 建筑区提取作为SAR图像解译的基本任务^[2]，旨在识别SAR图像中建筑区的像素，在城区规划^[3]、资源普查^[4]、灾难救援^[5]等方面具有重要意义.

近年来，深度学习在各种视觉任务上取得了显著进展，主要归功于大规模的图形处理单元算力和标注数据^[6]. 然而，与光学遥感图像或自然图像相比，SAR传感器的主动斜距成像机制使其图像在辐射和几何方面都具有独特的特征^[7]，表现在SAR图像存在相干斑噪声和叠掩等现象，人眼难以判别其中物体，导致标注成本昂贵，可利用的标注数据有限，一定程度上阻碍了SAR图像解译研究的发展. 为此，本文采用半监督学习^[6]方式，缓解有限标注数据给SAR图像建筑区提取任务带来的困难. 半监督学习旨在有限标注样本的基础上，合理利用大量的无标注样本进一步训练网络，有效缓解深度学习网络对大规模标注数据的依赖.

目前，已有文献探索了半监督学习在SAR图像场景分类、目标检测、语义分割等领域的应用. 例如，文献[8-10]采用生成式对抗网络生成伪训练样本及其标注，并将这些样本与有标注数据一起用于训练场景分类网络；Liao等^[11]针对SAR目标检测任务，提出利用图像重建的辅助任务来使用无标注数据训练骨干网络. 基于一致性正则化思想，Wang等^[12]使用2个子网络交叉监督的方式提高网络在MSTAR数据集^[13]上的分类精度. 在半监督学习中，伪标签^[14]是一个经典而有效的方法，但一个重要问题是如何挑选可靠的伪标签. 如果用于训练的伪标签不可靠，网络性能会大打折扣. 据此，Li等^[15]基于超像素的先验对伪标签进行修正，使其更加精确；Zhao等^[16]提出用模糊聚类方法生成伪标签来训练模型. 已有研究大多基于单时相图像，而SAR作为一种对地观测手段，在分布式星座技术^[17]的应用下，可以方便地获取大量多时相数据. 这些数据语义大致相同，而外观略微不同，因而可以用于共同确定同一地点的伪标签. 因此，本文提出在半监督学习中利用多时相SAR图像来改进网络预测的伪标签，从而提高网络的精度，这一方法称为多时相伪标签.

除了有限标注数据带来的挑战，SAR图像建筑区提取还存在边缘模糊的问题. 由于建筑区复杂的结构和散射特性，以及SAR图像中固有的相干斑噪声，建筑区边缘通常不能很好地分割. 目前，鲜有专门针对SAR建筑区边缘优化的研究. 其他领域的边缘优化方法可以归纳为2类：一类是对边缘及其附近的特征施加约束. 例如：Tang等^[18]对靠近边缘的像素计算对比损失，提高网络在边缘处的预测效果. 另一类是设计让网络预测对应的边缘. 例如，梁烽等^[19]在海陆分割任务中，通过对网络的浅层特征进行边缘监督，引导网络更加重视边缘；Jung等^[20]在光学图像建筑区分割任务中，提出对建筑物边缘和主体部分先分割后融合的策略，并对边缘特征进行深度监督. Li等^[21]没有使用网络浅层特征提取边缘，而是先用一个光流模块提取主体特征，并与原特征相减得到边缘特征，最后同时监督主体、边缘和总特征. 受Li等^[21]启发，本文针对SAR建筑区边缘优化问题，采用解耦的主体和边缘监督模块来改进网络提取的边缘特征，从而获得更完整的建筑区掩模和更规整的边缘.

本文构建一个半监督SAR建筑区提取数据集，称为多时相SAR建筑区提取数据集（multi-temporal SAR built-up area extraction dataset, MTSBED）. 该数据集包含不同传感器在不同地区拍摄的多时相SAR图像，涵盖农村、城区、山地、湖泊等多种地形，共包括1000张有标注图像和3200张无标注图像. 基于该数据集，验证结合多时相伪标签和边缘增强策略的SAR图像建筑区提取方法的性能.

1. 数据集介绍

深度学习方法需要大量训练数据，但对于SAR图像，特别是其语义分割任务，标注成本高昂. 为解决这一问题，本文采用基于多时相SAR图像的半监督学习方法，以减少SAR建筑区提取网络对大规模标注数据的依赖. 然而，目前缺少相关的公开数据集，为此，本文构建了多时相SAR建筑区提取数据集MTSBED^[22].

MTSBED数据集图像主要来源于TerraSAR-X^[23]和COSMO-SkyMed^[24]. 其拍摄区域分别为深圳地区和武汉地区. 图1展示了MTSBED数据集中2张SAR图像所覆盖的区域. 表1列出了这2个地区的传感器信息和统计信息.

图 1 MTSBED数据集覆盖的区域

Figure 1. Area covered by MTSBED dataset

下载: 全尺寸图片幻灯片

深圳地区获取的数据地物类型包括城区、山地和港口等. 城区中心的建筑密度较高，山区也有零星的低层建筑，而港口中停泊的船只和集装箱容易与SAR图像中的建筑区混淆，这些因素均大大增加了SAR图像建筑区提取的难度. 武汉地区的数据时间跨度较大，同时涵盖了城区和郊区. 同时，武汉包含许多河流和湖泊，而水体会随着季节的变化而发生重大变化，这也大大增加了数据集的复杂性和多样性.

为便于整理和深度神经网络处理，将原始大图裁剪成 $512 \times 512$ 像素的小图，并选取1000张图像加以标注，其中，深圳地区500张，武汉地区500张. 标注过程使用谷歌地图中同时段光学图像作为辅助，并采用“一人标注，多人校对”的方式，保证标注质量.

表 1 MTSBED数据集介绍

Table 1. Introduction of MTSBED dataset

参数	深圳地区	武汉地区
传感器	TerraSAR-X	COSMO-SkyMed
成像模式	条带	条带
入射角/（°）	35～39	20～25
分辨率/m	3	3
拍摄时间	2008 年 10 月— 2009 年 3 月	2011 年 5 月— 2020 年 11 月
时间分辨率/d	11～22	4～36
景数/张	9	13
注：这里的时间分辨率为MTSBED所包含数据的时间分辨率，不是SAR卫星重访的时间分辨率.

下载: 导出CSV

| 显示表格

对于剩余的无标注图像，为保证无标注的多时相SAR图像的语义一致性，挑选800组时间跨度小于3个月的多时相SAR图像，每组包含4张配准的SAR图像. 值得注意的是，由于建筑区是较稳定的人造物体，在短时间内（3个月）的变化很小，因此，在本文的建筑区提取任务中，近似地认为每组图像的语义标签一致. 图2和图3给出了一些有标注图像和无标注多时相图像的例子.

图 2 有标注图像示例

Figure 2. Annotated images

下载: 全尺寸图片幻灯片

图 3 无标注图像示例

Figure 3. Unlabeled images

下载: 全尺寸图片幻灯片

2. 多时相伪标签

在半监督伪标签学习中，通常将网络对无标签样本的预测结果作为伪标签，并将伪标签用于新一轮有监督训练. 基于此流程，生成可靠的伪标签至关重要. 如果网络学习了错误伪标签，可能会学习到错误的模式，导致性能下降. 常见做法是通过网络预测的概率来判断伪标签的可靠性，设定阈值 $\tau$ ，若网络预测某像素是建筑区的概率大于 $\tau$ ，则认为是可靠的，否则认为是不可靠的. 该概率也称为置信度，表示网络对预测结果的“自信程度”. 在计算无标注图像的损失时，只计算可靠伪标签的损失，而不计算不可靠伪标签的损失. 然而，上述方法只将预测概率高的样本用作伪标签训练，容易加重网络的确认偏差^[25]. 针对该问题，文献[14]从不确定性的角度寻找判断可靠伪标签的依据，利用蒙特卡罗采样^[26]来计算网络的不确定性，但该方法需要对同一数据进行多次前向运算，计算复杂度较大.

与自然图像不同，用于对地观测的遥感图像由于有“重访”的需求，具有“多时相”的特点，即在不同时间拍摄同一地区的图像序列. 若拍摄的时间间隔较短，虽然由于环境条件差异、传感器噪声或季节性变化导致成像结果存在一定差异，但可以认为其语义（尤其是建筑区）没有发生变化，也就是说，这样的多时相影像可以作为一种自然的图像增广. 因此，可以用网络对多时相图像预测结果是否一致来判断网络的不确定性，对于同一数据，该方法只需做一次前向运算，计算开销相对较小.

对于一个半监督语义分割数据集，令 ${D_{\text{L}}} = \{ ({x_i},{y_i})\} _{i = 1}^{{N_{\text{L}}}}$ 表示有标注部分， ${x_i}$ 是第i张图像， ${y_i}$ 是第i张图像的标注. 令 ${D_{\text{U}}} = \{ ({x_{{i}}})\} _{i = 1}^{{N_{\text{U}}}}$ 表示无标注部分，其中只有图像而没有对应的标注. 对于伪标签方法，网络的损失函数L包含有标注样本的损失L_L和无标注样本的损失L_U，如式（1）所示.

$L = {L_{\text{L}}} + {\lambda _{\text{U}}}{L_{\text{U}}} ,$

(1)

式中： ${\lambda _{\text{U}}}$ 为预先设定的系数，用于平衡有标注损失和无标注损失之间的权重.

对于有标注数据，按照交叉熵计算损失：

${L_{\text{L}}} = \frac{1}{{HW}}\sum\limits_{j = 1}^{HW} {\sum\limits_{c \in C} {y_{i,j,c}\log \;p_{i,j,c}} } ,$

(2)

式中： $W$ 和 $H$ 分别为输入图像的宽和高； $p_{i,j,c}$ 为网络预测的第 $i$ 张图像的第 $j$ 个像素属于第 $c$ 个类别的概率； $C$ 为所有类别的集合； $y_{i,j,c}$ 为 $p_{i,j,c}$ 对应的标注，若标注为第 $c$ 类别，则 $y_{i,j,c}$ =1，否则 $y_{i,j,c}$ = 0.

而对于无标注数据，通过熵最小化的方式利用无标注数据，损失函数如式（3）所示.

${L_{\text{U}}} = \frac{1}{{HW}}\sum\limits_{j = 1}^{HW} {\sum\limits_{c \in C} {\bar y_{i,j,c}\log \; p_{i,j,c}} } ,$

(3)

$\bar y_{i,j,c}{{ = I}}(p_{i,j,c} \gt \tau ) ,$

(4)

式中： $\bar y_{i,j,c}^{}$ 为网络预测的伪标签，其格式与 $y_{i,j,c}^{}$ 类似； $I( {\text{•}} )$ 为指示函数，若网络预测的某个类别的概率大于设定的阈值 $\tau$ ，则输出1，反之输出0.

若对于所有类别，网络预测的概率都小于 $\tau$ ，则该样本便不计入损失函数的计算. 该方法用网络预测的概率来判断伪标签是否可靠. 但预测结果并不总是正确，尤其是在训练样本不够的情况下，存在网络预测的概率值很高但预测错了的情况，将这些错误的伪标签加入训练会让模型学习到错误的模式.

而对于多时相SAR图像，可以从“不确定性”这一维度进一步选择伪标签. 图4给出了所提多时相伪标签方法的示意. 伪标签投票结果中，白色表示建筑类，黑色表示背景类，而灰色表示不可靠的像素样本，不计入损失函数的计算. 对于多时相图像，其语义没有发生变化，但图像表观特征有细微的变化，因此，可以用2个时相的预测结果进行投票. 若2个时相的预测结果一致，则可以将其作为伪标注来监督；反之说明网络对该像素位置的“不确定性”较高，这部分预测结果将不会用作伪标注. 所述伪标签损失函数的计算如式（5）所示.

图 4 多时相伪标签网络流程

Figure 4. Process of multi-temporal pseudo-labeling network

下载: 全尺寸图片幻灯片

$\overline{y}_{i,j,c}=I((p_{i1,j,c} > \tau)\;\& \;(p_{i2,j,c} > \tau)),$

(5)

${L_{\text{U}}} = \frac{1}{{2HW}}\sum\limits_{j = 1}^{HW} {\sum\limits_{c \in C} {((\bar y_{i,j,c}\log\; p_{i1,j,c}} } + \bar y_{i,j,c}\log\; p_{i2,j,c}) ，$

(6)

式中： $p_{i1,j,c}$ 和 $p_{i2,j,c}$ 分别为网络对时相1、2的预测结果.

3. 边缘增强

SAR图像中存在的相干斑噪声和叠掩等现象会使得网络预测的建筑区掩模通常在掩模对象内部有虚假的孔洞，并且边缘不准确. 考虑到特征变形（warp）方法可以将某个位置的特征移动到其他位置，从而对特征进行修正. 因此，本文在骨干网络后增加一个边缘增强模块，采用一种基于流场的方法，通过特征变形来修正网络提取的特征，从而生成更一致、更规整的建筑区主体和边缘特征，以去除预测结果掩膜对象内的空洞，并生成更规整的掩膜边缘.

为边缘增强模块的输入输出示意，其内部详细结构如所示. 图中： ${\boldsymbol{F}}$ 为从骨干网络得到的特征， ${{\boldsymbol{F}}_{{\text{fine}}}}$ 为从骨干网络高分辨率层得到的特征，F_final为边缘增强模块得到的最终特征， ${L_{{\text{body}}}}$ 、 ${L_{{\text{edge}}}}$ 、 ${L_{{\text{final}}}}$ 分别为监督主体特征、边缘特征、最终特征的损失函数. 该边缘增强模块将 ${\boldsymbol{F}}$ 解耦为每个实例的主体特征 ${{\boldsymbol{F}}_{{\text{body}}}}$ 和边缘特征 ${{\boldsymbol{F}}_{{\text{edge}}}}$ ，即 ${\boldsymbol{F}} = {{\boldsymbol{F}}_{{\text{body}}}} + {{\boldsymbol{F}}_{{\text{edge}}}}$ . 对这些解耦后的特征进行分别监督，如式（7）所示.

图 5 边缘增强模块流程

Figure 5. Process of edge enhancement module

下载: 全尺寸图片幻灯片

图 6 边缘增强模块结构

Figure 6. Structure of edge enhancement module

下载: 全尺寸图片幻灯片

$L = {L_{{\text{final}}}} + {\lambda _{\text{b}}}{L_{{\text{body}}}} + {\lambda _{\text{e}}}{L_{{\text{edge}}}} ,$

(7)

式中： ${\lambda _{\text{b}}}$ 和 ${\lambda _{\text{e}}}$ 分别为主体特征损失和边缘特征损失的权重.

3.1 主体聚合模块

由于建筑区在SAR图像中复杂的外观结构，网络预测的建筑区掩模通常在掩模对象内部有虚假的孔洞. 为了在各个实例掩膜内生成一致、紧密的特征，主体聚合模块先预测一个流场，再使用流场将原始特征变形成一个更紧致的表示，其结构如图6左半部分所示，图中蓝色特征图表示外部输入的特征图. 具体地，首先对骨干网络提取的特征图F进行卷积降采样处理，得到更低分辨率的特征图；低分辨率的特征图通常包含更多的低频分量，这些低频分量捕捉了图像的主体语义，对应掩模的主体部分. 然后，通过双线性插值将降采样的特征上采样回原来的分辨率，并将其与原始特征及池化特征串联. 最后，通过一个卷积层预测要变形的流场.

用流场对特征进行变形的过程与FlowNet-s^[27]相同，即用卷积模块预测每个像素位置的 $x$ 轴和 $y$ 轴偏移量. 在生成流场后，使用双线性插值方法对原始特征进行变形，得到最终的主体特征 ${{\boldsymbol{F}}_{{\text{body}}}}$ ，如式（8）所示.

${{\boldsymbol{F}}_{{\text{body}}}} = \sum\limits_{p \in {{N}}(j)} {{w_p}{\boldsymbol{F}}(p)} ,$

(8)

式中： ${w_p}$ 为从流场计算所得双线性插值的权重， $p$ 为像素位置， ${{N}}(j)$ 为像素 $j$ 的邻域.

变形后的特征图 ${{\boldsymbol{F}}_{{\text{body}}}}$ 更加紧凑，内部也更加一致. 对于该部分的损失函数 ${L_{{\text{body}}}}$ ，本文和文献[21]一致，均采用边缘松弛损失^[28]，其形式与式（2）相同，但不对边缘像素计算损失.

3.2 边缘保持模块

边缘保持模块用于从骨干网络的特征图 ${\boldsymbol{F}}$ 中抽取并改进边缘特征. 的右半部分给出了边缘保持模块的示意. 具体来说，边缘特征首先由原始特征 ${\boldsymbol{F}}$ 和主体特征 ${{\boldsymbol{F}}_{{\text{body}}}}$ 相减得到，然后与来自高分辨率分支的表示空间细节的特征串联，最后通过卷积层融合这两部分特征. 形式上，边缘特征 ${{\boldsymbol{F}}_{{\text{edge}}}} = {\text{Conv}}(({\boldsymbol{F}} - {{\boldsymbol{F}}_{{\text{body}}}})||{{\boldsymbol{F}}_{{\text{fine}}}})$ , ${\text{Conv}}$ (•)表示卷积层， $||$ 表示通道叠加.

空间细节特征可以保留更多高频信息，增强对边缘的判别力. 对于边缘特征的损失函数 ${L_{{\text{edge}}}}$ ，本文中采用交叉熵损失，如式（2）所示.

4. 实验结果与分析

4.1 实验细节设置

本文实验在MTSBED数据集上进行，训练集、验证集和测试集按照6∶2∶2的比例随机划分. 所有实验均训练了100轮，并设置batch size为16. 在半监督实验中，每个batch中有标注和无标注的样本数量各为8个. 训练工程中采用多项式学习率调度策略，初始学习率为0.01，并使用随机梯度下降（stochastic gradient descent, SGD）优化器. 所有实验均重复3次，并报告平均值以减少随机因素的影响.

骨干网络采用HRNet^[29]，不同于一般分割网络的编码器-解码器架构，HRNet中不同分辨率分支并行计算，且不同分辨率特征多次交互，实现了全程高分辨率表征，因而有更好的分割性能.

对于筛选可靠伪标签的阈值 $\tau$ ，在伪标签方法中设为0.95，在多时相伪标签方法中设为0.90. 此外，式（7）中主体损失的权重 ${\lambda _{\rm{b}}}$ 设为0.1，边缘损失的权重 ${\lambda _{\rm{e}}}$ 设为1.0. 由于伪标签并不完全准确，本文仅对伪标签计算交叉熵损失，不计算其主体特征和边缘特征的损失.

4.2 评价指标

本文采用建筑区的交并比（intersection over union, IoU）作为评估指标. IoU是一个同时考虑召回率和准确率的指标，其值R_IoU如式（9）所示.

$R_{\text{IoU}} = \frac{{{T_{\rm{p}}}}}{{{T_{\rm{p}}} + {F_{\rm{p}}} + {F_{\rm{N}}}}} \times 100{\text{%}} ,$

(9)

式中： ${T_{\rm{P}}}$ 为像素样本中真阳性的数量， ${F_{\rm{P}}}$ 为假阳性的数量， ${F_{\rm{N}}}$ 为假阴性的数量.

4.3 多时相伪标签 + 边缘增强方法实验结果

在预测概率的基础上，利用多时相SAR图像对伪标签作进一步筛选，提高所选伪标签的质量，降低网络被错误伪标签误导的程度，并进一步通过边缘增强模块提高对边缘的提取能力. 为验证所提方法的有效性，本节分别抽取5%、10%、20%、50%和100%标注样本进行实验，无标注图像则全部加入训练. 同时，选择伪标签、交叉伪监督（cross pseudo supervision, CPS）^[30]、特征-输出一致性（feature and output consistency training, FOCT）^[31]和语义均衡^[32]等方法进行对比.

CPS方法通过对网络的扰动实现一致性约束. 其具体做法是：使用2个结构一致，但独立初始化的网络，将相同的输入分别送入2个网络，并将其中一个网络的输出作为另一个网络的伪标签，即交叉伪监督.

FOCT方法同时对网络的中间特征和预测结果作一致性约束，且只对特征进行扰动，并探讨不同分辨率图像对应的最佳扰动位置. 例如，对于3 m分辨率的图像应当在第2个卷积模块加以扰动. 由于MTSBED的分辨率为3 m，本文中该方法的特征扰动位置也设为第2个卷积模块.

语义均衡方法针对半监督学习中的难易样本不平衡问题，通过CutMix^[33]将困难样本粘贴到无标注样本上，增加困难样本的采样概率. 同时，采用focal loss^[34]从损失函数层面增加困难样本的权重.

表2给出了不同方法在MTSBED测试集上的建筑区IoU指标对比. 从表中可以看出：对于5%～100%有标注样本的实验中，多时相伪标签+边缘增强方法都取得了比其他方法更好的结果，相比于仅用有标注样本训练的基线实验，多时相伪标签+边缘增强方法平均取得了4.65%的提升；而CPS方法在有标注样本较少时，其精度比基线实验还差很多，但是在有标注样本数量较多时，CPS的性能显著提升，这是因为当样本量较少，CPS的方法得到的伪标签不够精确，导致模型朝着错误的方向迭代，而当样本量增多，CPS得到的伪标签的可靠性提高，因此有较好的效果，这也侧面验证了可靠伪标签的重要性；FOCT方法同样在有标注样本较少（<10%）时精度较差，其原因在于模型训练不够好时对特征的扰动反而会阻碍模型的训练；语义均衡方法在训练过程中可能会将错误的（伪）标签当成困难样本进行学习，在一定程度上会使网络“迷惑”，因而其精度与伪标签方法差不多.

表 2 不同方法在MTSBED上的IoU性能比较

Table 2. Comparison of IoU performance of different methods on MTSBED %

有标注样本比例/%	仅标注样本	伪标签^[24]	CPS^[29]	FOCT^[30]	语义均衡^[31]	多时相伪标签 + 边缘增强
5	56.37	60.19	27.06	56.59	60.38	61.82
10	57.68	61.82	35.34	61.79	60.75	63.46
20	58.16	63.21	51.8	63.97	62.56	64.69
50	61.50	64.68	64.73	66.13	64.67	66.17
100	63.43	66.41	66.79	67.76	66.43	68.24

下载: 导出CSV

| 显示表格

不同方法在100%有标注训练数据时的可视化结果如图7所示. 从图中可以看出，有监督基线的分割结果比较破碎，有较多孤立的斑块，漏检和虚警都比较高，这是因为训练样本不足，模型没有得到充分的训练. 其他对比方法的性能表现相比于基线实验有所改善，但也存在问题，例如，第1行中伪标签方法和CPS方法不同区域的建筑区掩膜之间没有得到较好的分割，而是粘在了一起，而FOCT方法和语义均衡方法的分割结果较为破碎；第2行中其他方法预测的建筑区掩膜漏检较多，说明其提取的特征判别性相对不足，而本文提出的多时相伪标签 + 边缘增强的预测结果中漏检和误检都更少，同时也很少有孤立的斑块，验证了本文所提方法的有效性.

图 7 不同方法的可视化结果对比

Figure 7. Comparison of visualization results of different methods

下载: 全尺寸图片幻灯片

4.4 边缘增强模块实验结果

受相干斑噪声和叠掩等现象影响，网络预测的SAR建筑区域掩膜存在边缘不规整和建筑主体不完整等问题. 为解决这些问题，采用边缘增强模块提高边缘检测的精度. 该模块通过一个流场来聚合实例内部的上下文信息，并对物体边缘进行独立监督.

边缘增强模块的对比实验定量评估结果如表3所示. 表中比较了仅使用有标注样本训练和利用多时相伪标签情况下，有无边缘增强模块的网络性能. 结果显示，在这2种情况下，边缘增强模块都能显著提升网络性能. 特别是在仅使用10%有标注数据的条件下，边缘增强方法达到了63.46%的IoU，这与基线实验在使用100%有标注数据时达到的63.43%相当，证明了本文方法的有效性.

表 3 边缘增强模块消融实验（IoU指标）

Table 3. Ablation experiment of edge enhancement module (IoU) %

有标注样本比例/%	仅标注样本	标注样本 + 边缘增强	多时相伪标签	多时相伪标签 + 边缘增强
10	57.68	59.56	63.43	63.46
20	58.16	61.02	63.82	64.69
50	61.50	62.82	65.13	66.17
100	63.43	67.54	67.01	68.24

下载: 导出CSV

| 显示表格

图8给出了更加直观的比较，边缘增强模块不仅消除了基线实验预测的虚假孔洞，也使预测结果的边缘更加规整. 这是因为边缘增强模块的主体聚合模块可以使得掩膜主体的特征更加一致、紧密，并且分离的边缘监督模块也可以引导网络更加重视预测的边缘，验证了解耦主体和边缘监督的有效性.

图 8 边缘增强模块效果比较

Figure 8. Comparison of the results of edge enhancement module

下载: 全尺寸图片幻灯片

4.5 最佳概率阈值消融实验

在前文实验中，伪标签方法中概率阈值 $\tau$ 为0.95，而在多时相伪标签中 $\tau$ 为0.90. 多时相伪标签方法可以从另一个维度评估伪标签的可靠性，因此，可以适度降低对应的预测概率阈值. 给出了不同概率阈值下伪标签方法和本文方法的性能表现，该实验是在50%有标注样本条件下完成. 可以看出，伪标签方法的最佳概率阈值为0.95，而对于多时相伪标签方法，其最佳概率阈值为0.90. 值得注意的是，当 $\tau$ =0.99时，多时相伪标签的精度会略低于伪标签方法，因为此时多时相伪标签方法中用于训练的伪标签样本数量过少，导致精度下降.

表 4 不同预测概率阈值对结果的影响（IoU指标）

Table 4. Effect of different prediction probability thresholds on results (IoU) %

项目	0.85	0.90	0.95	0.99
伪标签	63.15	64.02	64.68	63.94
多时相伪标签	64.58	65.13	64.84	63.71

下载: 导出CSV

| 显示表格

5. 结束语

本文针对SAR图像建筑区提取，基于伪标签方法提出利用多时相SAR图像的语义一致性来提高网络生成伪标签的质量，并采用边缘特征增强模块有效改善网络预测的建筑区掩膜边缘不规整的问题. 同时，构建了涵盖不同传感器、不同地区、不同地物目标的数据集并进行实验验证. 实验结果表明，相比于基线方法，提出的结合边缘增强的多时相SAR图像伪标签方法能够显著提高有限样本下建筑区提取的精度.

致谢：本文使用意大利航天局（Italian Space Agency, ASI）^©的COSMO-SkyMed^®产品进行研究，该产品在ASI的许可证下交付使用（也即由Tapete博士领导的“WUHAN-CSK”项目）.Research carried out using COSMO-SkyMed^® products of the Italian Space Agency (ASI)^©, delivered under a license to use by ASI (i.e., “WUHAN-CSK” led by D. Tapete).

图 1 MTSBED数据集覆盖的区域

Figure 1. Area covered by MTSBED dataset

下载: 全尺寸图片幻灯片

图 2 有标注图像示例

Figure 2. Annotated images

下载: 全尺寸图片幻灯片

图 3 无标注图像示例

Figure 3. Unlabeled images

下载: 全尺寸图片幻灯片

图 4 多时相伪标签网络流程

Figure 4. Process of multi-temporal pseudo-labeling network

下载: 全尺寸图片幻灯片

图 5 边缘增强模块流程

Figure 5. Process of edge enhancement module

下载: 全尺寸图片幻灯片

图 6 边缘增强模块结构

Figure 6. Structure of edge enhancement module

下载: 全尺寸图片幻灯片

图 7 不同方法的可视化结果对比

Figure 7. Comparison of visualization results of different methods

下载: 全尺寸图片幻灯片

图 8 边缘增强模块效果比较

Figure 8. Comparison of the results of edge enhancement module

下载: 全尺寸图片幻灯片

表 1 MTSBED数据集介绍

Table 1. Introduction of MTSBED dataset

参数	深圳地区	武汉地区
传感器	TerraSAR-X	COSMO-SkyMed
成像模式	条带	条带
入射角/（°）	35～39	20～25
分辨率/m	3	3
拍摄时间	2008 年 10 月— 2009 年 3 月	2011 年 5 月— 2020 年 11 月
时间分辨率/d	11～22	4～36
景数/张	9	13
注：这里的时间分辨率为MTSBED所包含数据的时间分辨率，不是SAR卫星重访的时间分辨率.

下载: 导出CSV

表 2 不同方法在MTSBED上的IoU性能比较

Table 2. Comparison of IoU performance of different methods on MTSBED %

有标注样本比例/%	仅标注样本	伪标签^[24]	CPS^[29]	FOCT^[30]	语义均衡^[31]	多时相伪标签 + 边缘增强
5	56.37	60.19	27.06	56.59	60.38	61.82
10	57.68	61.82	35.34	61.79	60.75	63.46
20	58.16	63.21	51.8	63.97	62.56	64.69
50	61.50	64.68	64.73	66.13	64.67	66.17
100	63.43	66.41	66.79	67.76	66.43	68.24

下载: 导出CSV

表 3 边缘增强模块消融实验（IoU指标）

Table 3. Ablation experiment of edge enhancement module (IoU) %

有标注样本比例/%	仅标注样本	标注样本 + 边缘增强	多时相伪标签	多时相伪标签 + 边缘增强
10	57.68	59.56	63.43	63.46
20	58.16	61.02	63.82	64.69
50	61.50	62.82	65.13	66.17
100	63.43	67.54	67.01	68.24

下载: 导出CSV

表 4 不同预测概率阈值对结果的影响（IoU指标）

Table 4. Effect of different prediction probability thresholds on results (IoU) %

项目	0.85	0.90	0.95	0.99
伪标签	63.15	64.02	64.68	63.94
多时相伪标签	64.58	65.13	64.84	63.71

下载: 导出CSV

参考文献(34)

[1]	LEE J S, POTTIER E. Polarimetric radar imaging: from basics to applications[M]. Florida: CRC Press,2017.
[2]	WU W J, GUO H D, LI X W. Urban area SAR image man-made target extraction based on the product model and the time–frequency analysis[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2015, 8(3): 943-952. doi: 10.1109/JSTARS.2014.2371064
[3]	IANNELLI G C, GAMBA P. Urban extent extraction combining sentinel data in the optical and microwave range[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2019, 12(7): 2209-2216. doi: 10.1109/JSTARS.2019.2920678
[4]	CHEN Q H, XIAO Y, GAO W L, et al. Building density change monitoring using dual-polarimetric sentinel-1 SAR data[C]//2021 SAR in Big Data Era (BIGSARDATA). Nanjing: IEEE,2021:1-4.
[5]	CHEN S W, WANG X S, XIAO S P. Urban damage level mapping based on co-polarization coherence pattern using multitemporal polarimetric SAR data[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2018, 11(8): 2657-2667. doi: 10.1109/JSTARS.2018.2818939
[6]	YANG X L, SONG Z X, KING I, et al. A survey on deep semi-supervised learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2023, 35(9): 8934-8954. doi: 10.1109/TKDE.2022.3220219
[7]	吴樊,张红,王超,等. SARBuD 1.0:面向深度学习的GF-3精细模式SAR建筑数据集[J]. 遥感学报,2022,26(4): 620-631. doi: 10.11834/jrs.20220296 WU Fan, ZHANG Hong, WANG Chao, et al. SARBuD 1.0: a SAR building dataset based on GF-3 FSⅡ imageries for built-up area extraction with deep learning method[J]. National Remote Sensing Bulletin, 2022, 26(4): 620-631. doi: 10.11834/jrs.20220296
[8]	LIU X Y, HUANG Y L, WANG C W, et al. Semi-supervised SAR ATR via conditional generative adversarial network with multi-discriminator[C]//2021 IEEE International Geoscience and Remote Sensing Symposium (IGARSS). Brussels:IEEE,2021:2361-2364.
[9]	ZHENG C, JIANG X, LIU X Z. Semi-supervised SAR ATR via multi-discriminator generative adversarial network[J]. IEEE Sensors Journal, 2019, 19(17): 7525-7533. doi: 10.1109/JSEN.2019.2915379
[10]	SUN Q G, LI X F, LI L L, et al. Semi-supervised complex-valued GAN for polarimetric SAR image classification[C]//2019 IEEE International Geoscience and Remote Sensing Symposium. Yokohama:IEEE,2019: 3245-3248.
[11]	LIAO L Y, DU L, GUO Y C. Semi-supervised SAR target detection based on an improved faster R-CNN[J]. Remote Sensing, 2021, 14(1): 143.1-143.22.
[12]	WANG C C, GU H, SU W M. SAR image classification using contrastive learning and pseudo-labels with limited data[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 4012505.1-4012505.5.
[13]	KEYDEL E R, LEE S W, MOORE J T. MSTAR extended operating conditions: a tutorial[C]// Algorithms for Synthetic Aperture Radar Imagery Ⅲ. Orlando: SPIE, 1996: 228-242.
[14]	RIZVE M N, DUARTE K, RAWAT Y S, et al. In defense of pseudo-labeling: an uncertainty-aware pseudo-label selection framework for semi-supervised learning[EB/OL]. (2021-01-15)[2022-08-10]. http://arxiv.org/abs/2101.06329.
[15]	LI Y Y, XING R T, JIAO L C, et al. Semi-supervised PolSAR image classification based on self-training and superpixels[J]. Remote Sensing, 2019, 11(16): 1933-1951. doi: 10.3390/rs11161933
[16]	ZHAO F, TIAN M, XIE W, et al. A new parallel dual-channel fully convolutional network via semi-supervised FCM for PolSAR image classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 4493-4505. doi: 10.1109/JSTARS.2020.3014966
[17]	邓云凯,禹卫东,张衡,等. 未来星载SAR技术发展趋势[J]. 雷达学报,2020,9(1): 1-33. doi: 10.12000/JR20008 DENG Yunkai, YU Weidong, ZHANG Heng, et al. Forthcoming spaceborne SAR development[J]. Journal of Radars, 2020, 9(1): 1-33. doi: 10.12000/JR20008
[18]	TANG L Y, ZHAN Y B, CHEN Z, et al. Contrastive boundary learning for point cloud segmentation [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans: IEEE, 2022: 8479-8489.
[19]	梁烽,张瑞祥,柴英特,等. 一种结合上下文与边缘注意力的SAR图像海陆分割深度网络方法[J]. 武汉大学学报(信息科学版),2023,48(8): 1286-1295. LIANG Feng, ZHANG Ruixiang, CHAI Yingte, et al. A sea-land segmentation method for SAR images using context-aware and edge attention based CNNs[J]. Geomatics and Information Science of Wuhan University, 2023, 48(8): 1286-1295.
[20]	JUNG H, CHOI H S, KANG M. Boundary enhancement semantic segmentation for building extraction from remote sensed image[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5215512.1-5215512.12.
[21]	LI X T, LI X, ZHANG L, et al. Improving semantic segmentation via decoupled body and edge supervision [C]//European Conference on Computer Vision. Cham: Springer, 2020: 435-452.
[22]	陈帅霖,杨文,李恒超,等. 顾及边缘的多时相SAR图像半监督建筑区提取[EB/OL]. [2023-03-02]. https://github.com/slchenchn/MTSBED.
[23]	PITZ W, MILLER D. The TerraSAR-X satellite[J]. IEEE Transactions on Geoscience and Remote Sensing, 2010, 48(2): 615-622. doi: 10.1109/TGRS.2009.2037432
[24]	COVELLO F, BATTAZZA F, COLETTA A, et al. COSMO-SkyMed an existing opportunity for observing the earth[J]. Journal of Geodynamics, 2010, 49(3): 171-180.
[25]	ARAZO E, ORTEGO D, ALBERT P, et al. Pseudo-labeling and confirmation bias in deep semi-supervised learning[C]//2020 International Joint Conference on Neural Networks (IJCNN). Glasgow: IEEE, 2020: 1-8.
[26]	TOMPSON J, GOROSHIN R, JAIN A, et al. Efficient object localization using convolutional networks[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston: IEEE, 2015: 648-656.
[27]	DOSOVITSKIY A, FISCHER P, ILG E, et al. FlowNet: learning optical flow with convolutional networks[C]// 2015 IEEE International Conference on Computer Vision (ICCV). Santiago: IEEE, 2015: 2758-2766.
[28]	ZHU Y, SAPRA K, REDA F A, et al. Improving semantic segmentation via video propagation and label relaxation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach: IEEE, 2019: 8848-8857.
[29]	WANG J D, SUN K, CHENG T H, et al. Deep high-resolution representation learning for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(10): 3349-3364. doi: 10.1109/TPAMI.2020.2983686
[30]	CHEN X K, YUAN Y H, ZENG G, et al. Semi-supervised semantic segmentation with cross pseudo supervision[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville: IEEE, 2021: 2613-2622.
[31]	LI Q Y, SHI Y L, ZHU X X. Semi-supervised building footprint generation with feature and output consistency training[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5623217. 1-5623217. 17.
[32]	LEE E, JEONG S, KIM J, et al. Semantic equalization learning for semi-supervised SAR building segmentation[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 4511505.1-4511505.5.
[33]	YUN S, HAN D, CHUN S, et al. CutMix: regularization strategy to train strong classifiers with localizable features[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul: IEEE, 2019: 6022-6031.
[34]	LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//2017 IEEE International Conference on Computer Vision (ICCV). Venice: IEEE, 2017: 2999-3007.

施引文献

附加材料(0)

访问统计

点击查看大图

图(8) / 表(4)

计量

文章访问数: 342
HTML全文浏览量: 177
PDF下载量: 51
被引次数: 0

1. 数据集介绍
2. 多时相伪标签
3. 边缘增强
3.1 主体聚合模块
3.2 边缘保持模块
4. 实验结果与分析
4.1 实验细节设置
4.2 评价指标
4.3 多时相伪标签 + 边缘增强方法实验结果
4.4 边缘增强模块实验结果
4.5 最佳概率阈值消融实验
5. 结束语

顾及边缘的多时相SAR图像半监督建筑区提取

doi: 10.3969/j.issn.0258-2724.20220807

作者简介: 陈帅霖（1997—），男，硕士，研究方向为遥感图像分割，E-mail：slchen1997@whu.edu.cn

通讯作者: 杨文（1976—），男，教授，研究方向为图像处理与计算机视觉，E-mail：yangwen@whu.edu.cn

计量

出版历程