Detection and Recognition of Digital Instruments Based on Lightweight YOLO-v4 Model at Substations
-
摘要:
为了在变电站实际场景中准确获取数字仪表读数,智能管控变电站的安全风险,同时推动变电站智能化发展,以实际场景中变电站数字仪表作为研究对象,综合考虑实时性及准确度等,提出一种基于轻量级YOLO-v4模型的变电站数字仪表检测识别方法. 首先,通过从鄂尔多斯变电站实际拍摄变电站数字仪表图像数据,使用Albumentations框架对数字仪表图像进行数据扩充,构建变电站数字仪表目标检测数据集;然后,以YOLO-v4网络为基础,结合注意力机制构建一个有效通道注意(efficient channel attention,ECA)改进的深度可分离卷积模块(ECA-bneck-m);最后,提出一个轻量级YOLO-v4模型,进行模型大小与性能的对比实验. 实验结果表明:本文方法可以在几乎不损失检测准确度的情况下,将整个模型存储大小压缩为原先的1/5,同时将模型推理速度从24.0帧/s提升至36.9帧/s,其实时性能够满足实际变电站检测识别的工程需要.
Abstract:In order to accurately recognize the readings of digital instruments in the actual scene of substations, intelligently control substation security, and promote its intelligent development, the digital instruments in the substation are taken as the research object, and in view of real-time and accuracy, a lightweight YOLO-v4 model is proposed for the detection and recognition of digital instruments. Firstly, the digital instrument images captured from the Ordos substation are expanded by using the Albumentations framework, thus building an effective digital instrument data set for detection and recognition. After that, an efficient channel attention (ECA)-based deep separable convolution block (ECA-bneck-m) is constructed with attention mechanism, and further a lightweight YOLO-v4 model is proposed to conduct comparative experiments on model size and performance. Finally, experiments comparing model size and performance are performed. The results show that, the storage size of the model can be compressed by about 5 times nearly without loss of detection accuracy, and the processing speed of model can be increased from 24.0 frame/s to 36.9 frame/s, indicating that the proposed model can meet the requirements of real-time detection and recognition in the actual substation.
-
Key words:
- digital instrument /
- detection and recognition /
- YOLO-v4 /
- data augmentation /
- lightweight
-
数字式仪表具有读数准确方便、测量速度快、能提供数字信号输出、方便进行目视观察和数字记录等优点,已被广泛应用到变电站、工业、军事、航空等领域. 然而,在实际应用中,由于技术限制和各类其他原因,变电站中一些数字仪表的数据读取和记录始终依靠人工观察. 但是,人工观察在整个工作过程中存在手动工作量大、实时性差、效率低等问题.
对变电站数字仪表数据进行智能化监测和管理能有效增强实时性,减少安全隐患. 随着变电站智能化发展,人工采集已不能满足变电站对数据实时性的需求,对变电站数字仪表数据的实时处理已成为当前重要研究问题之一. 近年来,相关研究人员提出使用计算机视觉处理技术实现变电站数字仪表数据读取,这类方法大多先使用相机获取图像,再运用数字图像处理相关技术获取数字仪表读数,进而完成识别任务.
数字仪表读数识别采用的方法有支持向量机、神经网络、模板匹配、穿针引线法等. Cui等[1]提出一种数字仪表数字识别方法,采用基于方向梯度直方图的线性支持向量机,其拥有较好的精确度以及鲁棒性,但不适用于大样本数据的处理;卜令正等[2]提出一种改进的卷积神经网络(CNN)实现手写数字与数码管数字的识别,具有较快的检测速度,但是有一定精度损失;郭兰英等[3]提出一种基于可变形CNN的数显仪表示数分割与识别方法,准确率高,但是检测速率相对较慢;陈刚等[4]提出一种基于特征提取的数字仪表数码快速直接识别算法,能够快速识别字符,但其在复杂环境中鲁棒性较差;郭爽[5]采用穿线法对数字仪表进行识别,有较好的识别效果,但是依赖简单的识别环境;高菊等[6]在模板匹配的基础上,通过增加对字符特征的匹配,减少对相近字符的误判,适用于某一种类型仪表的数字识别,但对不同字体、不同倾斜程度的数字字符识别效果不佳,且模板匹配法容易遭受噪声影响.
近年来,随着计算机视觉技术发展迅速,深度学习的方法在图像目标检测领域中应用愈加广泛. 2014年提出的基于区域的CNN (RCNN)[7]、2015年提出的全卷积网络 (FCN)[8-9]以及2015年提出的Faster RCNN[10-11]等标志着计算机视觉领域目标检测的巨大进步. 与此同时,You Only Look Once (YOLO)系列算法也相继被提出,包括2015年YOLO-v1[12]、2016年YOLO-v2[13]、2017年YOLO-9000[14]、2018年YOLO-v3[15]、2019年YOLO-v4[16]以及YOLO-v5[17]. YOLO-v4作为检测速率与精确度并肩的检测算法,已经在各个行业被广泛应用,如煤矸石检测[18]、人体检测[19]、安全帽检测[20]等. 相比于其他深度学习目标检测模型,YOLO-v4模型可兼顾检测性能和预测速度,能满足大部分实际检测任务的实时性需求.
尽管YOLO-v4模型的计算效率已大大提高,但对于变电站数字仪表的智能监测这一实际应用而言,其实时性和存储复杂度仍有待进一步改进. 针对深度学习模型的轻量化问题,常用的轻量级网络为MobileNet系列模型,包括2017年Howard提出的MobileNet-v1[21]、2018年MobileNet-v2[22]、2019年MobileNet-v3[23]等. 该系列模型中构建的深度可分离卷积模块能在低参数量的情况下有效提取特征,但也存在非线性能力不足、模型压缩程度有限等问题.
针对上述问题,面向变电站数字仪表检测识别的实际应用需求,本文提出一种基于轻量级YOLO-v4模型的数字仪表检测识别方法,在几乎不损失模型准确度的同时,有效降低整个模型的计算和存储复杂度. 主要工作包括以下3个部分:
1) 考虑到传统深度可分离卷积模块存在的非线性能力不足、压缩程度有限等问题,本文结合非线性拟合能力更强的Mish函数,提出轻量级网络模块bneck-m. 进一步,结合有效通道注意力(ECA)模块,构建ECA改进的bneck-m (ECA-bneck-m)模块,有效提高其非线性处理能力和计算效率.
2) 考虑到传统YOLO-v4模型无法满足实际场景中变电站数字仪表检测识别的实时性和低存储复杂度需求,基于ECA-bneck-m模块,本文提出一种轻量级YOLO-v4模型,在几乎不损失模型检测准确度的前提下,提升模型的推理速度.
3) 从鄂尔多斯变电站实际场景中采集数字仪表图像,并使用Albumentations框架对图像进行弹性变化、旋转、色彩空间变换等方式的数据增强,构建一个数据量充足、能较为全面反映变电站数字仪表可能情况的数字仪表检测识别数据集.
1. 深度学习数字仪表检测识别方法
1.1 总体研究思路
面向变电站实际场景中对数字仪表检测识别实时性和准确性的应用要求,以鄂尔多斯变电站采集的数字仪表图像作为研究对象,基于由特征提取网络以及路径聚合网络(PANet)组成的轻量级YOLO-v4网络,提出深度学习数字仪表检测识别方法,其总体框架如图1所示,主要包括数字仪表预处理、数字仪表数据集构建、用于数字仪表目标检测以及数字字符识别的轻量级YOLO-v4模型、数字仪表检测识别等部分.
1.2 基于轻量级YOLO-v4的数字仪表检测算法
类似于传统自然图像目标检测,最简单的变电站数字仪表检测方法为模板匹配.
1.2.1 模板匹配
模板匹配是在一幅图像中寻找与另一幅模板图像相似部分的技术[24]. 该方法通过目标图像在待匹配图像中进行遍历,选择一定的匹配方式得到每个起始像素点的匹配度,匹配度最高的位置就是候选匹配位置,达到匹配查找的效果,如图2所示. 图中,T(m,n)为模板图像,A(u,v)为待识别图像,(m,n)为模板图像像素点坐标,u、v分别为待识别图像的宽、高.
通过将模板图像在待识别图像上进行平移,被模板覆盖的搜索区域为子图$ A_{ij} $(m,n),i、j为子图左上角坐标,i∈[1, u−M],j∈[1, v−N],M、N分别为模板图像的宽、高. T(m,n)和$ A_{ij} $(m,n)间的误差值为D(i, j),如式(1)所示. 误差值越小,则匹配度越高,相似性越高.
尽管这种方法计算量小,且检测速度快,但其鲁棒性较差,在复杂环境下并不适用.
D(i,j)=M∑m=1N∑n=1[Aij(m,n)−T(m,n)]2. (1) 1.2.2 轻量级YOLO-v4模型
YOLO-v4的算法框架由主干特征提取网络(CSPDarknet-53)、空间金字塔池化(SPP)和PANet构成,如图3所示.
面向变电站数字仪表检测识别,本文结合Mish函数和注意力机制,提出一种轻量级 YOLO-v4 模型,包含 4 个改进思路:
1) bneck是一种特殊的深度可分离卷积模块,能有效提取目标的特征信息,且拥有较少的参数量. 如图4所示,bneck由3 × 3深度可分离卷积(Dwise)、SE (squeeze-and-excitation)通道注意力机制和残差连接结构构成. 图中:NL代表非线性激活函数,Pool为池化处理,FC为全连接层,ReLU与Hard-σ (σ为Sigmoid函数)为激活函数,+ 表示残差连接,Dwise用于提取图像特征,SE通道注意力用于提高特征的表达能力,残差连接结构用于解决由于网络层数过深而产生过拟合的问题.
bneck模块采用H-Swish函数作为模型的激活函数,使用光滑的激活函数的模型拥有较好的性能[25]. H-Swish、Mish函数曲线如图5所示,图中,x为函数自变量. 可以看出,H-Swish函数存在拐点,Mish函数呈现为光滑曲线. 因此,选用Mish函数作为激活函数,提出改进的深度可分离卷积模块bneck-m,提高整个模块的特征提取能力.
基于上述分析,所提出bneck-m模块结构与图4相同,由逆残差结构、深度可分离卷积结构和SE注意力模块构成,在提高模块非线性能力的同时,自适应地从特征的通道维度学习有用特征信息,同时抑制干扰信息.
2) 在1)基础上,为进一步降低bneck-m模块参数量,且提高其计算效率,结合ECA模块,将SE模块(图6)替换为ECA模块(图7),提出如图8所示的ECA-bneck-m模块. 图6中:e为输入特征,H × W × C为通道维度. SE模块对每个特征通道单独使用全局平均池化(GAP),然后使用2个FC层,最后,使用Hard-σ函数生成通道权值,将通道权重与原特征相乘,获得输出特征$\tilde e $. 其中,FC层的设计是为了捕捉非线性的跨通道交互,并通过降维控制其复杂性. 如图7所示,ECA模块先对每个通道单独全局平均池化,然后,通过考虑每个通道及其$ s $个邻居来捕获局部跨通道交互信息,即使用$ s $个1维卷积捕获局部跨通道交互信息,最后,用Sigmoid函数来生成通道权值. 相较SE模块,ECA模块的$ s $个1维卷积结构复杂度低,且推理速度快. 因此,ECA模块的整体性能更佳.
相比于bneck-m模块,ECA-bneck-m模块具有参数量小和特征提取能力强的特点,能有效降低模型参数量和存储大小.
3) 传统YOLO-v4主干网络CSPDarkNet-53的参数量大,导致推理时间较长,无法满足变电站数字仪表检测识别要求,本文基于Mish函数提出ECA-bneck-m模块,构建轻量级特征提取网络,并将其作为YOLO-v4模型新的主干网络.
4) 空间金字塔池化(SPP)层能提取多尺度空间特征,提升模型对于空间布局和物体变形的鲁棒性,如图9所示. SPP对特征分别采用4种最大池化操作处理并使用$ {k_l} $表示,池化得到图像特征ql,如式(2) 所示. 最后,通过级联得到输出特征q (式(3)).
ql=klo,l=1,2,3,4, (2) q=4∑l=1ql, (3) 式中:$ o $为主干网络提取的图像特征.
由于变电站数字仪表目标不同于常规目标,本文结合实际采集的仪表图像,对SPP层进行优化,通过对不同池化组合的研究,获取最优尺度,使改进后的模型更好地适用于数字仪表的检测识别,提高模型精度.
轻量级YOLO-v4模型结构如图10所示,将其应用于变电站数字仪表的智能检测识别,从实际拍摄的图像中定位数字仪表的位置,为数字仪表读数提供更为精确的数字仪表数显区域,降低计算复杂度,同时提高整个模型的识别准确度.
1.3 数字仪表检测数据集构建
由于鄂尔多斯变电站日常摄像机所拍摄的数字仪表图像受到实际环境因素的影响,图像会出现亮度较暗等情况. 因此,需要对实际采集的数字仪表图像进行预处理,本文采用伽马变换,提高原始数字仪表图像的质量.
考虑到深度学习模型需要大量的标签数据,而变电站中实际能够采集到的数字仪表图像数据有限,无法满足深度学习模型的训练需求. 因此,本文使用基于Albumentations框架的数据增强方式,实现数字仪表图像数据量级的有效提升. 该框架包括多种图像扩充的方式,例如弹性变化、旋转、高斯噪声以及色相和饱和度值偏移(HSV)等. 基于上述4种处理方法,对采集到的变电站数字仪表图像进行数据增强,并构建得到变电站数字仪表检测识别数据集,用于轻量级YOLO-v4模型的训练和学习.
1.4 基于轻量级YOLO-v4的数字仪表数显区域定位和读数识别算法
尽管1.2节已完成对变电站数字仪表的精确定位,但还需对数字仪表的数显区域和读数进行定位与识别,为工作人员智能监测变电站运行情况与异常情况提供及时的参考和辅助.
如图1所示,本文采用轻量级YOLO-v4模型,先对数字仪表的数显区域进行定位,然后定位与识别其中的数字字符,根据数字字符坐标顺序依次输出分类结果,得到最终的数字仪表读数识别结果.
2. 实验结果以及分析
2.1 数据集构建
考虑到深度学习模型需要大量标签样本,本文使用Albumentations框架对实际采集的数字仪表图像进行扩充,进而构建变电站数字仪表检测识别数据集(见表1). 原始数字仪表图像数据集从1571幅扩充到5000幅,原始数字字符图像数据集从1201幅扩充到5000幅. 数据扩充效果如图11所示.
表 1 图像数据扩充结果Table 1. Image data expansion results幅 数据集 数字仪表 数字字符 总计 原数据集 1571 1201 2772 扩充数据集 5000 5000 10000 参考文献[26-29],基于扩充数据集,按照9∶1的比例制作训练集及测试集. 其中,用于仪表检测的数据集总数为5000幅,4500幅为训练集,500幅为测试集;用于字符检测的数据集总数为5000幅,4500幅为训练集,500幅为测试集.
2.2 实验环境与参数设置
实验环境配置为:操作系统Windows 10,CPU AMD Ryzen 5 3600,内存16 GB,显卡NVIDIA Geforce RTX 2060 (6 GB). 模型的训练平台为深度学习开发工具Pytorch 1.2.0,编程语言为Python.
轻量级YOLO-v4模型相关训练参数为:学习率为0.001,Batch_size为4,Epoch设置为180次.
2.3 性能评价指标
采用目标检测常用的性能评价指标衡量模型性能,包括平均精度(average precision, AP)、平均精确度均值(mean average precision, mAP)、精确率(P)、召回率(R)以及F1值.
P是模型对某类正确预测为正样本的数量TP与该类所有预测为正样本总数(即TP与预测为正样本的负样本数量FP之和)的比值,如式(4)所示.
P=TPTP+FP. (4) R是TP与实际为该类正样本总数(TP与预测错误的正样本数量FN之和)的比值,如式(5)所示.
R=TPTP+FN. (5) F1值(式(6))为精确率和召回率的加权调和平均,是分类问题中对性能综合评估的常用评价指标.
F1=2RPR+P. (6) AP即精确率召回曲线的面积,AP值越高,则检测效果越好. mAP是所有类别AP的均值,作为综合评价指标.
2.4 实验结果与对比分析
2.4.1 伽马变换效果
对数字仪表图像采用1.3节基于伽马变换的预处理操作,当变换参数$\gamma $=0.7时,图像效果如图12所示. 数字仪表图像的亮度值得到有效提升,图像特征信息更加明显.
2.4.2 预选框的选取与设置
由于数字仪表和字符目标较为固定,使用YOLO-v4原有的预选框尺寸效果较差,需重新设定预选框尺寸. 数字仪表数据集类型和目标尺寸均较为单一,直接通过k-means聚类算法得到的聚类中心往往较为集中,进而影响整个模型训练效果.
本文采用改进的预选框尺寸聚类方法. 首先,使用k-means方法对人工标注的数字仪表数据集重新进行聚类,获取初始预选框尺寸. 在此基础上,通过线性尺度的缩放操作,对预选框尺寸进行调整,进而获得满足变电站数字仪表检测识别所需的预选框尺寸,如式(7)所示.
{(˜α1,˜β1)=0.5(α1,β1),(˜α9,˜β9)=3(α9,β9),(˜αδ,˜βδ)=(αδ−α1α9−α1(˜α9−˜α1),˜αδβδαδ),2⩽δ⩽8, (9) 式中:$ \alpha _\delta$和$ \beta _\delta$分别为k-means聚类预选框尺寸的宽和高;$\tilde \alpha_\delta $和$\tilde \beta _\delta$分别为线性尺寸缩放后的预选框尺寸的宽和高; δ为聚类预选框的编号,$ 1 \leqslant \delta \leqslant 9 $.
因此,通过上述计算得到的变电站数字仪表检测识别对应的预选框尺寸如表2所示.
表 2 k-means预选框聚类结果Table 2. k-means clustering results of prior box模型 特征层 13 × 13 26 × 26 52 × 52 仪表检测
模型(204, 149) (84, 174) (5, 16) (221, 448) (128, 227) (21, 36) (288, 144) (174, 479) (71, 131) 字符识别
模型(159, 191) (94, 127) (14, 24) (163, 270) (127, 167) (42, 62) (297, 876) (131, 633) (70, 308) 2.4.3 SPP层的尺度优化
输入图像通过轻量级YOLO-v4模型的主干特征提取网络后,需经过SPP层,对空间尺度为13 × 13的特征进行不同尺寸的最大池化,进一步学习输入图像的多尺度属性. 先根据经验固定2组核大小为1 × 1和13 × 13,再从常用池化尺寸{3 × 3,5 × 5,7 × 7,9 × 9,11 × 11}中选取经典组合{3 × 3,5 × 5 }、{5 × 5,7 × 7}、{7 × 7,9 × 9 }、{7 × 7,11 × 11}、{5 × 5,9 × 9}. 通过5组池化尺度进行实验对比,结果如表3所示. 当尺度组合设置为{7 × 7, 9 × 9}时,整个模型的mAP值最高. 因此,用于数字仪表图像识别的轻量级YOLO-v4模型中剩余2个最大池化尺度组合设置为{7 × 7, 9 × 9}.
表 3 SPP层不同池化尺度性能对比结果Table 3. Performance comparison of SPP layer at different pooling scales池化尺度 mAP/% {3 × 3, 5 × 5} 99.75 {5 × 5, 7 × 7} 99.69 {7 × 7, 9 × 9} 99.78 {7 × 7, 11 × 11} 99.74 {5 × 5, 9 × 9} 99.68 2.4.4 模型训练参数设置
为直观展示轻量级YOLO-v4模型的训练过程,图13给出了模型的学习曲线. 当迭代次数超过180次后,整个模型趋于稳定收敛. 因此,实验中迭代次数Epoch设置为180次.
2.4.5 不同深度学习模型性能对比分析
为突出YOLO-v4模型在改进过程中的轻量化变化程度,表4给出上述4种模型大小的对比结果. 由于激活函数不会影响模型大小及参数量,基于bneck和bneck-m模块的轻量级YOLO-v4模型相比原始模型(基于DarkNet-53模块),大小均从244.0 MB减少到53.8 MB,参数从63986151个缩减到14018719个. 而基于ECA-bneck-m模块轻量级YOLO-v4网络的模型大小仅为48.0 MB,参数量为12506463个,均小于原始模型,上述实验结果表明,所提出的模型在模型存储大小和参数量上更有优势.
表 4 不同网络模型大小对比结果Table 4. Comparison results of different model sizes网络模型 参数量/个 模型大小/MB YOLO-v4 (DarkNet-53) 63986151 244.0 YOLO-v4 (bneck) 14018719 53.8 YOLO-v4 (bneck-m) 14018719 53.8 YOLO-v4 (ECA-bneck-m) 12506463 48.0 基于2.1节训练集与测试集,为验证轻量级YOLO-v4 (ECA-bneck-m)模型在检测准确度和实时性上的优势,表5给出不同识别模型性能对比结果,选择Faster-RCNN、YOLO-v3、YOLO-v4、轻量级YOLO-v4 (bneck)和YOLO-v4 (bneck-m)5种模型与本文模型作对比分析. 表6给出轻量级YOLO-v4 (ECA-bneck-m)模型的每类字符识别、仪表检测与数显区域定位结果. 而图14给出数字仪表检测与读数识别结果.
表 5 不同深度学习目标检测模型对比结果Table 5. Comparison of different deep learning detection models网络 mAP/% FPS/(帧·s−1) Faster-RCNN 83.88 6.0 YOLO-v3 99.64 30.0 YOLO-v4 99.80 24.0 轻量级YOLO-v4 (bneck) 99.58 33.7 轻量级YOLO-v4 (bneck-m) 99.75 35.6 轻量级YOLO-v4 (ECA-bneck-m) 99.78 36.9 表 6 轻量级YOLO-v4(ECA-bneck-m)测试结果Table 6. Lightweight YOLO-v4 (ECA-bneck-m) test results类别 P/% R/% F1 字符 0 识别 99.83 99.65 1.00 字符 1 识别 99.43 98.87 0.99 字符 2 识别 98.58 100.00 0.99 字符 3 识别 100.00 100.00 1.00 字符 4 识别 98.56 100.00 0.99 字符 5 识别 96.58 99.30 0.98 字符 6 识别 95.27 98.60 0.97 字符 7 识别 99.05 100.00 1.00 字符 8 识别 97.54 100.00 0.99 字符 9 识别 100.00 99.25 1.00 仪表检测 97.22 100.00 0.99 数显区域定位 98.25 100.00 0.99 根据表5、6所示的实验结果,YOLO-v4模型的mAP值比Faster-RCNN高15.92%,比YOLO-v3高0.16%. 从实时性角度,YOLO-v4的每秒处理帧数(frames per second,FPS)比Faster-RCNN高18.0帧/s,但略低于YOLO-v3模型(仅降低6.0帧/s). 可以看出,相比于YOLO-v3与Faster-RCNN模型,YOLO-v4模型可以在获得较高检测准确度的同时,保证较快的推理速度.
与YOLO-v4模型相比,改进的轻量级YOLO-v4 (ECA-bneck-m)模型在仅降低0.02% mAP值的前提下,推理速度FPS从原始的24.0帧/s提升到36.9帧/s. 相比YOLO-v4 (bneck)和YOLO-v4 (bneck-m)这2种模型,轻量级YOLO-v4 (ECA-bneck-m)模型的mAP值分别提高0.20%和0.03%,同时推理速度FPS也分别提高3.2 帧/s和1.3 帧/s. 实验结果说明了ECA-bneck-m模块的有效性,同时也证明了轻量级YOLO-v4 (ECA-bneck-m)模型更符合变电站数字仪表检测识别的实际应用需求. 此外,从类别识别结果上看,使用改进ECA-bneck-m模块设计的轻量级YOLO-v4模型在每个类别的精确率均达到95%以上,而且在测试图像中存在噪声或其他复杂情况下,仍然拥有较好的准确度和鲁棒性.
3. 结 论
面向变电站数据仪表智能检测识别的实际应用需求,本文提出一种基于轻量级YOLO-v4模型的数字仪表检测识别方法. 该方法以YOLO-v4模型为基础,通过设计改进的ECA-bneck-m模块,对YOLO-v4主干特征提取网络进行轻量化设计,进而得到轻量级YOLO-v4 (ECA-bneck-m)模型,在几乎不损失准确度的前提下,有效降低模型的计算和存储复杂度. 此外,本文从鄂尔多斯变电站实际场景下采集了数字仪表图像数据,并使用Albumentations框架进行数据增强,构建了变电站数字仪表检测识别数据集. 实验结果表明,基于轻量级YOLO-v4模型的数字仪表检测识别方法能够实时、准确地实现数字仪表检测与读数识别,进而推动变电站数字仪表检测识别的智能化发展.
-
表 1 图像数据扩充结果
Table 1. Image data expansion results
幅 数据集 数字仪表 数字字符 总计 原数据集 1571 1201 2772 扩充数据集 5000 5000 10000 表 2 k-means预选框聚类结果
Table 2. k-means clustering results of prior box
模型 特征层 13 × 13 26 × 26 52 × 52 仪表检测
模型(204, 149) (84, 174) (5, 16) (221, 448) (128, 227) (21, 36) (288, 144) (174, 479) (71, 131) 字符识别
模型(159, 191) (94, 127) (14, 24) (163, 270) (127, 167) (42, 62) (297, 876) (131, 633) (70, 308) 表 3 SPP层不同池化尺度性能对比结果
Table 3. Performance comparison of SPP layer at different pooling scales
池化尺度 mAP/% {3 × 3, 5 × 5} 99.75 {5 × 5, 7 × 7} 99.69 {7 × 7, 9 × 9} 99.78 {7 × 7, 11 × 11} 99.74 {5 × 5, 9 × 9} 99.68 表 4 不同网络模型大小对比结果
Table 4. Comparison results of different model sizes
网络模型 参数量/个 模型大小/MB YOLO-v4 (DarkNet-53) 63986151 244.0 YOLO-v4 (bneck) 14018719 53.8 YOLO-v4 (bneck-m) 14018719 53.8 YOLO-v4 (ECA-bneck-m) 12506463 48.0 表 5 不同深度学习目标检测模型对比结果
Table 5. Comparison of different deep learning detection models
网络 mAP/% FPS/(帧·s−1) Faster-RCNN 83.88 6.0 YOLO-v3 99.64 30.0 YOLO-v4 99.80 24.0 轻量级YOLO-v4 (bneck) 99.58 33.7 轻量级YOLO-v4 (bneck-m) 99.75 35.6 轻量级YOLO-v4 (ECA-bneck-m) 99.78 36.9 表 6 轻量级YOLO-v4(ECA-bneck-m)测试结果
Table 6. Lightweight YOLO-v4 (ECA-bneck-m) test results
类别 P/% R/% F1 字符 0 识别 99.83 99.65 1.00 字符 1 识别 99.43 98.87 0.99 字符 2 识别 98.58 100.00 0.99 字符 3 识别 100.00 100.00 1.00 字符 4 识别 98.56 100.00 0.99 字符 5 识别 96.58 99.30 0.98 字符 6 识别 95.27 98.60 0.97 字符 7 识别 99.05 100.00 1.00 字符 8 识别 97.54 100.00 0.99 字符 9 识别 100.00 99.25 1.00 仪表检测 97.22 100.00 0.99 数显区域定位 98.25 100.00 0.99 -
[1] CUI X X, FANG H, YANG G Q, et al. A new method of digital number recognition for substation inspection robot[C]//2016 4th International Conference on Applied Robotics for the Power Industry (CARPI). Jinan: IEEE, 2016: 1-4. [2] 卜令正,王洪栋,朱美强,等. 基于改进卷积神经网络的多源数字识别算法[J]. 计算机应用,2018,38(12): 3403-3408.BU Lingzheng, WANG Hongdong, ZHU Meiqiang, et al. Multi-source digit recognition algorithm based on improved convolutional neural network[J]. Journal of Computer Applications, 2018, 38(12): 3403-3408. [3] 郭兰英,韩睿之,程鑫. 基于可变形卷积神经网络的数字仪表识别方法[J]. 计算机科学,2020,47(10): 187-193.GUO Lanying, HAN Ruizhi, CHENG Xin. Digital instrument identification method based on deformable convolutional neural network[J]. Computer Science, 2020, 47(10): 187-193. [4] 陈刚,胡子峰,郑超. 基于特征检测的数字仪表数码快速识别算法[J]. 中国测试,2019,45(4): 146-150.CHEN Gang, HU Zifeng, ZHENG Chao. Fast recognition algorithm for digital instruments based on feature detection[J]. China Measurement & Test, 2019, 45(4): 146-150. [5] 郭爽. 数码管数字仪表自动识别方法的研究[J]. 通信技术,2012,45(8): 91-93.GUO Shuang. Study on automatic identification method of digital tube[J]. Communications Technology, 2012, 45(8): 91-93. [6] 高菊,叶桦. 一种有效的水表数字图像二次识别算法[J]. 东南大学学报(自然科学版),2013,43(增1): 153-157.GAO Ju, YE Hua. An effective two-times recognition algorithm of meter digital image[J]. Journal of Southeast University (Natural Science Edition), 2013, 43(S1): 153-157. [7] ZHOU C H, ZHOU J Y, YU C, et al. Multi-channel sliced deep RCNN with residual network for text classification[J]. Chinese Journal of Electronics, 2020, 29(5): 880-886. doi: 10.1049/cje.2020.08.003 [8] SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651. [9] TANG Z L, LIU Q Q, WU M J, et al. WiFi CSI gesture recognition based on parallel LSTM-FCN deep space-time neural network[J]. China Communications, 2021, 18(3): 205-215. doi: 10.23919/JCC.2021.03.016 [10] 黄继鹏,史颖欢,高阳. 面向小目标的多尺度Faster-RCNN检测算法[J]. 计算机研究与发展,2019,56(2): 319-327.HUANG Jipeng, SHI Yinghuan, GAO Yang. Multi-scale faster-RCNN algorithm for small object detection[J]. Journal of Computer Research and Development, 2019, 56(2): 319-327. [11] 林刚,王波,彭辉,等. 基于改进Faster-RCNN的输电线巡检图像多目标检测及定位[J]. 电力自动化设备,2019,39(5): 213-218.LIN Gang, WANG Bo, PENG Hui, et al. Multi-target detection and location of transmission line inspection image based on improved Faster-RCNN[J]. Electric Power Automation Equipment, 2019, 39(5): 213-218. [12] 王粉花,黄超,赵波,等. 基于YOLO算法的手势识别[J]. 北京理工大学学报,2020,40(8): 873-879.WANG Fenhua, HUANG Chao, ZHAO Bo, et al. Gesture recognition based on YOLO algorithm[J]. Transactions of Beijing Institute of Technology, 2020, 40(8): 873-879. [13] 昝珊珊,李波. 融合改进YOLOv2网络的视觉多目标跟踪方法[J]. 小型微型计算机系统,2020,41(12): 2601-2606.ZAN Shanshan, LI Bo. Visual multi-target tracking method combined with improved YOLOv2 network[J]. Journal of Chinese Computer Systems, 2020, 41(12): 2601-2606. [14] 寇大磊,权冀川,张仲伟. 基于深度学习的目标检测框架进展研究[J]. 计算机工程与应用,2019,55(11): 25-34.KOU Dalei, QUAN Jichuan, ZHANG Zhongwei. Research on progress of object detection framework based on deep learning[J]. Computer Engineering and Applications, 2019, 55(11): 25-34. [15] 郭璠,张泳祥,唐琎,等. YOLOv3-A:基于注意力机制的交通标志检测网络[J]. 通信学报,2021,42(1): 87-99.GUO Fan, ZHANG Yongyang, TANG Jin, et al. YOLOv3-A: a traffic sign detection network based on attention mechanism[J]. Journal on Communications, 2021, 42(1): 87-99. [16] DEGADWALA S, VYAS D, CHAKRABORTY U, et al. Yolo-v4 deep learning model for medical face mask detection[C]//2021 International Conference on Artificial Intelligence and Smart Systems (ICAIS). Coimbatore: IEEE, 2021: 209-213. [17] 窦其龙,颜明重,朱大奇. 基于YOLO-v5的星载SAR图像海洋小目标检测[J]. 应用科技,2021,48(6): 1-7. doi: 10.11991/yykj.202105023DOU Qilong, YAN Mingzhong, ZHU Daqi. Small marine target detection in space-borne SAR image based on YOLO-v5[J]. Applied Science and Technology, 2021, 48(6): 1-7. doi: 10.11991/yykj.202105023 [18] 来文豪,周孟然,胡锋,等. 基于多光谱成像和改进YOLO v4的煤矸石检测[J]. 光学学报,2020,40(24): 72-80.LAI Wenhao, ZHOU Mengran, HU Feng, et al. Coal gangue detection based on multi-spectral imaging and improved YOLO v4[J]. Acta Optica Sinica, 2020, 40(24): 72-80. [19] KANNADAGULI P. YOLO v4 based human detection system using aerial thermal imaging for UAV based surveillance applications[C]//2020 International Conference on Decision Aid Sciences and Application (DASA). Sakheer: IEEE, 2020: 1213-1219. [20] DENG B Y, LEI X C, YE M. Safety helmet detection method based on YOLO v4[C]//2020 16th Inter-national Conference on Computational Intelligence and Security (CIS). Guangxi: IEEE, 2021: 155-158. [21] LI Y T, HUANG H S, XIE Q S, et al. Research on a surface defect detection algorithm based on MobileNet-SSD[J]. Applied Sciences, 2018, 8(9): 1678.1-1678.17. doi: 10.3390/app8091678 [22] SANDLER M, HOWARD A, ZHU M L, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City: IEEE, 2018: 4510-4520. [23] HOWARD A, SANDLER M, CHEN B, et al. Searching for MobileNetV3[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul: IEEE, 2020: 1314-1324. [24] 盛敏,刘双庆,王婕,等. 基于改进模板匹配的智能下肢假肢运动意图实时识别[J]. 控制与决策,2020,35(9): 2153-2161.SHENG Min, LIU Shuangqing, WANG Jie, et al. Real-time motion intent recognition of intelligent lower limb prosthesis based on improved template matching technique[J]. Control and Decision, 2020, 35(9): 2153-2161. [25] 刘宇晴,王天昊,徐旭. 深度学习神经网络的新型自适应激活函数[J]. 吉林大学学报(理学版),2019,57(4): 857-859.LIU Yuqing, WANG Tianhao, XU Xu. New adaptive activation function for deep learning neural networks[J]. Journal of Jilin University (Science Edition), 2019, 57(4): 857-859. [26] 马小陆,方洋,王兵,等. 一种改进的YOLO v3红外图像行人检测方法[J]. 湖北理工学院学报,2020,36(6): 19-24,38. doi: 10.3969/j.issn.2095-4565.2020.06.005MA Xiaolu, FANG Yang, WANG Bing, et al. An improved YOLO v3 infrared image pedestrian detection method[J]. Journal of Hubei Polytechnic University, 2020, 36(6): 19-24,38. doi: 10.3969/j.issn.2095-4565.2020.06.005 [27] 杨蜀秦, 刘江川, 徐可可, 等. 基于改进CenterNet的玉米雄蕊无人机遥感图像识别[J]. 农业机械学报, 2021, 52(9): 206-212.YANG Shuqin, LIU Jiangchuan, XU Keke, et al. Improved CenterNet based maize tassel recognition for UAV remote sensing image[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(9): 206-212. [28] 王钏文,王磊,黄仁欢,等. 基于YOLOv3算法的中低速列车在途障碍物检测方法[J]. 铁路通信信号工程技术,2021,18(7): 86-89.WANG Chuanwen, WANG Lei, HUANG Renhuan, et al. Detection method of obstacles of medium-low speed train in transit based on YOLOv3 algorithm[J]. Railway Signalling & Communication Engineering, 2021, 18(7): 86-89. [29] 张欣,张永强,何斌,等. 基于YOLOv4-tiny的遥感图像飞机目标检测技术研究[J]. 光学技术,2021,47(3): 344-351.ZHANG Xin, ZHANG Yongqiang, HE Bin, et al. Research on remote sensing image aircraft target detection technology based on YOLOv4-tiny[J]. Optical Technique, 2021, 47(3): 344-351. -