Fault Diagnosis Method Based on Deep Active Learning For MVB Network
-
摘要:
多功能车辆总线MVB (multiple vehicle bus)用于传输重要的列车运行控制指令和监视信息,准确地诊断MVB网络故障是列车智能运维的基础,为此,提出一种将主动学习和深度神经网络相结合的MVB网络故障诊断方法. 该方法采用堆叠去噪自编码器自动提取MVB信号物理波形特征,并将该特征用于训练深度神经网络来实现MVB网络故障模式分类;基于不确定性和可信度的高效主动学习方法,可解决实际应用中标记样本不足和人工标记成本高昂的问题,使用少量标记训练样本就能得到高性能的深度神经网络模型. 实验结果表明:为达到90%以上分类准确率,所提方法只需要600个标记训练样本,小于随机采样方法所需标记训练样本数的2 800个;在相同标记训练样本数下,所提方法在3种性能指标下均优于传统方法.
Abstract:Multiple vehicle bus (MVB) is employed to transmit important train operation control instructions and monitoring information, and accurate diagnosis of the fault types of MVB network is the basis of the intelligent operation and maintenance system. To this end, a fault diagnosis method for MVB network is proposed, which combines the active learning and deep neural networks. It adopts the stacked denoising autoencoder to automatically extract physical features from the electrical MVB signals; then the features are used to train a deep neural network classifier for identifying MVB fault classes. An efficient active learning method based on uncertainty and credibility can solve the problems of insufficient labeled samples and high costs of manual labeling in practical application. It can build a competitive classifier with a small number of labeled training samples. Experiment results demonstrate that to achieve a high accuracy above 90%, the proposed method requires 600 labeled training samples, which is less than 2800 labeled training samples required by random sampling method. With the same number of labeled samples, the proposed method can achieve the better performance as to three different metrics than traditional methods.
-
机载蓄电池作为飞机电源系统的主要功能部件,其性能状态直接关系到系统供电可靠性,进而影响飞行安全[1]. 锂离子电池具有能量密度高、使用寿命长等优势,已经在民用和军用飞机上得到应用[2]. B787锂电池热失控事故暴露了机载锂电池的安全管理问题[3]. 为推动锂电池在航空领域的应用发展,需要寻找可靠方法识别监测其健康水平.
电池可用容量是反映电池健康水平的重要指标. 当机载电池可用容量与额定容量之比低于设定阈值时,该电池容量失效,不能再上机使用[4]. 业界通常使用健康状态这一指标来量化电池可用容量与额定容量的比值. 国内外学者对锂电池健康状态评估开展了诸多研究,所用方法主要包括直接测量法、基于模型的方法和数据驱动法[5]. 航线上检测机载蓄电池可用容量所采用的满容量充放电法便属于直接测量法,该方法可靠性高,但成本大且会损耗电池寿命[6]. 基于模型的方法主要包括电化学模型、等效电路模型和经验模型[7-9]. 此类方法评估精度依赖于所建模型的准确程度[10],在条件恶劣、各项因素复杂的机载应用场景,难以建立准确模型. 数据驱动法无需分析电池内部特性,不会额外损耗电池寿命,为业界广泛关注[11-12]. 目前,基于数据驱动法对锂电池健康状态的研究聚焦于拟合回归曲线开展容量评估,而采用分类算法来识别电池容量失效的研究较少. 现有容量评估模型的识别精度对于失效阈值附近的样本表现不佳,且难以像失效分类方法那样通过调参以使模型侧重于识别失效样本[13]. 同时,现有研究主要针对电动汽车的动力电池,对机载应用的研究较少.
神经网络、随机森林、支持向量机(SVM)等分类算法在逆变器、轴承等工程设备的失效识别上得到了广泛应用[14-18]. 其中,神经网络等深度学习类算法对数据量要求较大[19-20];随机森林在锂电池数据集上的表现相对不理想;而SVM算法在小样本、非线性问题上表现良好[21],与本文应用场景较为契合,故选择SVM算法开展锂电池失效识别研究. 根据维修手册规定,对于装机使用的蓄电池,必须按照飞行小时或者日历月定期进行容量检测,容量失效的电池必须更换[22]. 对于车载应用中的蓄电池,电池容量与续航里程密切相关,但是对行驶安全的影响相对较小,对电池容量失效的检测和更换相对不够及时[23-24]. 因此,与车载电池相比,机载蓄电池的维护运行数据记录中,锂电池健康样本数量远大于容量失效样本的数量,存在较大的健康与失效样本数量差距,即样本不平衡问题. 在基于样本不平衡的数据集使用SVM算法训练模型时,存在分离超平面偏移现象,影响分类性能[25]. 目前,使用SVM解决样本不平衡问题的主流方法是给不同类别样本分别赋值不同的惩罚参数,并借助各种寻优算法在训练过程进行寻优调参:文献[16]提出一种新型进化算法烟花算法,将其应用于SVM的惩罚参数寻优,实现对滚动轴承故障的准确诊断;文献[17]采用粒子群优化算法(PSO)对SVM惩罚参数寻优,建立PSO-SVM模型实现对机载电源系统的风险识别. 基于优化算法选择SVM惩罚参数的方法能够抑制样本不平衡引起的分离超平面偏移,但是存在耗时较长且难以避免局部最优的不足.
针对机载锂电池失效识别任务中,健康样本和失效样本数量不平衡导致分离超平面偏移的问题,以及现有惩罚参数选择方法的不足,本文提出惩罚参数分段自调整的思路:对各个样本类别划分不同的分段等级,根据各分段等级内的分类识别误差赋值并修正样本的惩罚参数,实现迭代过程中自动调整每个训练样本的SVM惩罚参数,进而提出分段惩罚参数支持向量机(SPP-SVM)算法,抑制样本不平衡引起的超平面偏移,实现对锂电池容量失效样本的准确识别.
1. 样本不平衡时的SVM超平面偏移
依据间隔最大化原则,SVM基于训练集T={(x1,y1), (x2,y2), $\cdots $,(xN,yN)}在高维特征空间寻找最大间隔分离超平面,实现对正负类样本的分类识别. xi和yi分别为训练集中样本i的特征向量和所属类别,yi=±1分别代表样本属于正类/负类,i=1, 2, $\cdots $, N. SVM根据训练集T训练得到分离超平面H(x),表达式为w·x + b=0,其中,w为权值矢量,x为输入样本的特征向量值,b为截距. SVM寻找分离超平面的过程可表示为求解式(1)所示的约束最优化问题[26].
{minw,b,ξi 12‖w‖2+CN∑i=1ξi, s.t. yi(w•xi+b)⩾1−ξi, ξi⩾0, (1) 式中:C为风险损失惩罚参数,ξi为松弛变量.
构建拉格朗日函数,根据对偶性求解式(1),得到最优解. 此时,分类决策函数为
f(x)=sgn(N∑i=1αiyiK(x,xi)+b), (2) 式中:αi为拉格朗日乘子,K(x,xi)为核函数.
机载蓄电池实际工作中,失效样本(即负类样本)的数量相对很少,样本不平衡. 这种情况下,SVM算法面临分离超平面偏移问题,影响分类识别性能.
从NASA (National Aeronautics and Space Administration)实验室的锂电池数据集中选取5、7、18号电池的充电数据,并从中提取具有线性关系的恒流(constant current,CC)充电时长和恒压(constant voltage,CV)充电时长这两项特征,分别按照最大绝对值归一化方法处理,构建训练集A. 按照电池容量是否低于额定容量的70%,划分健康和失效样本(以下简称为正、负样本),训练集A中,正、负样本数量比约为6∶1,样本不平衡. 从A中均匀去除正样本,直至正、负样本数量比接近1∶1,得到训练集B. 在分类识别任务,SVM的风险损失惩罚参数C取值通常设置在0~100之间[27-28]. 在样本不平衡场景下,为分析C的取值偏大和偏小对SVM分类效果的影响,分别设置C=100,10,选择多项式核函数,依次使用数据集A、B训练模型,将分类效果可视化,得到图1. 图中,横、纵坐标为归一化后的值,蓝色和红色点分别代表正、负样本,黑色斜线代表SVM根据训练集寻找到的分离超平面.
由图1(a)、(c)可以看出,基于样本不平衡的数据集A开展训练时,SVM分离超平面向负类样本区域偏移,大量负样本被误判,C取值较大可以一定程度抑制偏移,但效果不理想. 如图1(b)、(d)所示,在使用样本数量平衡的数据集B开展训练时,分离超平面向负类区域的偏移能够得到抑制,但这种去除部分正样本的方式会导致训练数据损失,且此时正样本分布范围大且相对稀疏,会导致超平面出现反向偏移,造成对正样本的误判,C取值越小,该现象越明显.
目前,使用SVM解决该问题的主流方法是给正、负类样本分别赋值不同的惩罚参数,通过PSO等寻优算法在训练过程中对正、负类惩罚参数进行寻优[17]. 但是这种方式忽略了不同样本点信息价值差异,且计算量较大,偏移抑制效果不稳定.
为解决超平面偏移问题,充分挖掘各个样本蕴含信息,本文对SVM算法进行改进,提出一种分段惩罚参数支持向量机算法.
2. 分段惩罚参数支持向量机算法
考虑不同样本蕴含信息价值的差异,给各个样本赋予不同的风险损失惩罚参数,如式(3)所示.
{minw,b,ξi 12‖w‖2+N∑i=1Ciξi, s.t. yi(w•xi+b)⩾1−ξi, ξi⩾0, (3) 式中:Ci为样本i的风险损失惩罚参数.
Ci按照经验设置初始值为10,训练得到初始分离超平面和分类决策函数,计算样本i到分离超平面的几何距离γi,如式(4)所示.
γi=yi(w‖w‖xi+b‖w‖). (4) 2.1 惩罚参数分段自调整方法
在数据集样本不平衡的情况下,SVM分离超平面向数量较少的负类区域偏移. 样本的几何距离越小,意味着该样本距离分离超平面越近,越容易被分类错误. 惩罚参数是影响SVM训练的重要参数,惩罚参数越大的样本对模型训练的影响越大,在训练过程中调整各样本的惩罚参数,可以调整平衡模型对正/负类别的识别能力,提高分类识别效果. 因此,本文对正、负类样本分别按照几何距离划分等级,使得不同等级下包含的样本数量和分布范围尽量接近,并基于所属等级和该等级内的样本识别准确率建立表达式,实现惩罚参数分段自调整,抑制超平面偏移.
首先,根据几何距离对正类和负类样本分别赋值距离等级,以样本i为例,其距离等级为
l i={ent((γi−γ+min)/γ+max)L++1,y∗i=+1, ent((|γi|−|γ−min|)/|γ−max|)L−+1,y∗i=−1, (5) 式中:$ \gamma _{\max }^ + $和$ \gamma _{\min }^ + $分别为分类结果中所有正样本到分离超平面的几何距离中的最大值和最小值,$ \gamma _{\max }^ - $和$ \gamma _{\min }^ - $分别为负样本到分离超平面几何距离的最大值和最小值,L+和L−分别为正类和负类样本的分段等级数量,$y_i^* $为样本i的识别结果.
根据分类结果,对正/负类中存在误判样本的等级下的全部样本,根据式(6)调整放大风险损失惩罚参数,增强模型训练时对这些样本的关注程度.
C∗i={Ci√(1−0.5a+j)(L+−li)0.5a+j, y∗i=+1,Ci√(1−0.5a−j)(L−−li)0.5a−j, y∗i=−1, (6) 式中:j=li,为样本i所属的距离等级;$a_j^+、a_j^- $分别为对于预测的正、负类样本,在距离等级j中样本的识别准确率.
根据式(6),距离分离超平面越近的样本,惩罚参数放大幅度越大.
为避免超调,对$a_j^+、a_j^- $设置下限0.1,如式(7)所示.
{a+j=max{0.1, 1−(N+j∑i=0|Ei|)/N+j},a−j=max{0.1, 1−(N−j∑i=0|Ei|)/N−j}, (7) 式中:Ei为样本i的预测值和真实值的差值,Nj+和Nj−分别为正、负类中等级j内的样本数量.
对于正、负类中不包含误判样本的距离等级,当该等级所属类别的识别准确率高于另一类时,该等级下样本的风险损失惩罚参数则按照式(8)调整缩小.
C∗i={Ci√0.5a+j((1−0.5a+j)(L+−li)), y∗i=+1,Ci√0.5a−j((1−0.5a−j)(L−−li)), y∗i=−1. (8) 2.2 SPP-SVM算法流程
将锂电池数据等分为训练集和测试集,并从训练集中分出一半的数据作为验证集. 在SPP-SVM算法迭代的过程中,为避免过拟合,通过训练集训练模型,使用验证集验证模型效果并调整参数. SPP-SVM算法流程如图2所示,具体步骤如下:
步骤1 对各个样本惩罚参数赋初值为10,对正、负样本按照数量比确定分段等级数量.
步骤2 使用训练集,根据当前迭代轮数下的惩罚参数训练SPP-SVM分类识别模型,对训练集和验证集中样本进行识别,根据分类识别结果计算各样本到分离超平面的几何距离,解算准确率、查全率和查准率等分类性能指标.
步骤3 分析模型分类识别效果. 若存在某类样本的识别准确率小于10%,则使该类样本的风险损失惩罚参数翻倍,然后重复步骤2再次训练;否则,进行下一步.
步骤4 根据模型对验证集中样本的识别结果,将识别为正类和负类的样本分别基于几何距离划分距离等级. 随后,计算验证集中正/负类全部样本的识别准确率,以及正/负类中每个距离等级下的样本识别准确率. 对两类别中存在误判样本的距离等级,该等级下全部样本按照式(6)放大惩罚参数. 对于识别准确率更高的类别中不含误判样本的距离等级,则按照式(8)缩小这些等级中各样本的惩罚参数. 实现在迭代过程中各个样本惩罚参数的分段调整.
步骤5 训练过程中,若模型识别的准确率、查全率、查准率等分类性能指标连续3轮迭代中变化幅度均小于1%,说明模型已经收敛,此时,停止训练,输入测试集分析模型最终训练效果;否则,代入分段调整后的风险损失惩罚参数,回到步骤2继续进行模型训练.
3. 基于SPP-SVM的锂电池失效识别
3.1 特征提取
本文所用数据来源为NASA实验室的
18650 锂电池全寿命周期充放电数据集,电池基本参数信息如表1所示. 实验过程中,NASA研究者将锂电池在室温环境进行充放电循环,当电池可用容量不足出厂额定容量的70%,将其视为失效,即容量小于1.4 A·h的样本视为失效样本. 选取5、6、7、18号四块电池数据进行实验.表 1 NASA实验所用锂电池参数Table 1. Parameters of lithium-ion battery used in NASA experiments参数类型 参数值 电池型号 18650 最大充电截止电压/V 4.20 最小放电截止电压/V 2.75 额定电压/V 3.6 出厂额定容量/(A·h) 2 充电温度范围/℃ 0~45 放电温度范围/℃ −20~60 机载蓄电池通常在地面充电,数据采集方便且充电模式固定,故选择从充电阶段数据中提取特征. 通过数据可视化,观察实验中采集的不同电池充电电压、电流及温度曲线发现:随着充放电次数增加,CC充电时长、CV充电时长、充电之初温度下降时长等特征随电池容量衰退而变化.
除上述可以直接观察到的特征外,电池充电曲线中还蕴含着反映电池内在特定化学反应过程的微分特征. 因此,进一步对锂电池充电电压数据进行容量增量(incremental capacity,IC)分析,提取微分特征. 恒流充电过程中,电池的充电容量Q根据充电电流I和时长计算,如式(9)所示.
Q=∫t1t0I dt, (9) 式中:t0、t1分别为充电开始、结束时刻.
容量增量计算如式(10)所示[29].
dQdV≈ΔQΔV=IΔtΔV, (10) 式中:$ \Delta Q $为电压增加$ \Delta V $时的容量变化,$ \Delta V $为经过一个固定采样时间间隔$ \Delta t $后电压值的变化.
为获取容量增量数据绘制IC曲线,需要以电压变化或时间变化作为数据采集的判定指标[29],本文以时间变化为指标,参考经验值,设置采样时间间隔为10 s. 同时基于Savitzky-Golay滤波和卡尔曼滤波(Kalman filter,KF)对IC曲线进行平滑降噪后,得到不同充电次数下的IC曲线.
图3中绘制了充放电次数以步长17从1次增加到154次,容量从1.85 A·h下降到1.32 A·h过程中,5号电池的10条IC曲线. 可以看出:随着电池容量下降,IC曲线起点逐渐右移;电压3.8~4.1 V的IC曲线波峰面积随之下降;电压4.1 V之后的IC曲线末端均值减少. 由此提取IC曲线起点、IC曲线波峰面积和IC曲线末端均值3项特征.
为研究上述特征与电池实际容量之间的相关性,基于泊松系数开展相关性分析. 计算各项特征与电池实际容量数据之间的泊松系数,筛选得到4项特征:CC充电时长、充电之初温度下降时长、IC曲线波峰面积和IC曲线末端均值组成特征集.
考虑到量纲差异,对数据进行去噪处理,并在提取特征后进行归一化处理,将数据集线性缩放到[0,1]内. 最终得到锂电池特征数据集,其中,健康样本498条,失效样本132条,正、负样本比例约为3.8∶1,样本不平衡. 本文实验均在Intel Core i5-12400F,2.5 GHz CPU, 16 G内存的Windows 11系统下的PC机上利用python 3.10进行.
3.2 惩罚参数分段调整效果对比
为分析惩罚参数分段调整思想对SVM算法训练过程的影响,分别采用SVM和SPP-SVM开展实验进行验证. 实验设置10次循环,每次随机等分不同的训练集和测试集,将10次循环下分类识别指标的平均值作为验证结果.
反映算法分类效果的主要指标包括准确率、查准率和查全率. 准确率为识别正确的样本数量与全部样本数量的比值,反映样本的分类识别精度;查准率P代表被模型识别为负类的样本中识别正确的比率;查全率R代表负类样本被成功识别的比率. P=n11/(n11 + n01),R=n11/(n11 + n10). 其中,n11为被正确识别的负类样本数量,n01为被错误识别为负类的正类样本数量,n10为被错误识别为正类的负类样本数量. 上述指标范围均在[0,1]之间,取值越大,说明模型分类识别效果越好. 为综合查全率和查准率指标衡量算法效果,引入查准率和查全率的调和平均数F1作为考量模型对负类样本识别效果的指标,见式(11).
F1=1/(1P+1R). (11) 为对比惩罚参数分段调整的作用,首先使用传统SVM训练模型进行验证,其核函数为高斯核函数. 训练过程中,参照式(6),根据当前迭代次数下正、负样本的识别准确率a+和a−,对正、负样本的风险损失惩罚参数C1和C2进行调整,如式(12)所示.
C∗i={C1√1−0.5a+ /√0.5a+ , y∗i=+1,C2√1−0.5a− /√0.5a− , y∗i=−1. (12) 使用SPP-SVM训练模型时,设置L+=25段,L−=2段,固定迭代次数为50次,得到训练过程中SVM和SPP-SVM的识别准确率、查准率、查全率及F1值的交叉验证结果,如图4所示.
由图4可以看出,使用SVM按照正、负样本的分类准确率调整C1和C2时,各项分类识别指标均随迭代次数增加而逐渐上升,说明采用式(12)能够有效SVM调整惩罚参数. 但是该方式训练所需时间较长,在迭代40次之后各项指标才基本趋于平稳,且对负样本的识别查准率较低. 使用SPP-SVM引入惩罚参数分段调整后,能够在迭代15次时便得到稳定的分类性能. 对比可见,SPP-SVM算法训练收敛速度更快,稳定状态下各指标波动幅度更小,查全率、查准率等指标均更高.
SPP-SVM算法实现自动调整各样本惩罚参数的同时,也引入了正负类分段等级数量参数L+和L-. 为分析其对SPP-SVM算法的性能影响,设置L+=25段,L−=4,7段;以及设置L−=7段,L+=7,120段,进行性能对比. 迭代中,模型各分类性能指标交叉验证结果的变化情况如图5所示.
对比图5(a)、(b)和图4(b)可见,在L+=25段即正类中各等级下的样本数量基本为10个时,L− 的变化对算法分类性能影响较小,此时,在测试集上对负类样本的查全率和查准率基本持平,都处于较高水平,且算法收敛速度相近. 设置L−=7段使得负类中各等级下样本数量接近10个,令L+=L−,此时,训练得到的模型虽然F1值基本未变且查准率提升,但是查全率下降. 保持L−=7段不变,放大L+ 至120段,如图5(d),此时,负样本查全率显著提升,但查准率和F1值降低,且迭代过程中各项分类指标波动明显,收敛性差. 对比图5中各图,当L+=25段且L−=7段时,SPP-SVM识别效果最好. 即根据正、负类样本数量n+和n−,分别设置L+=n+/10,L−=n−/10时,SPP-SVM能有效平衡正负类样本识别能力,查全率和查准率都处于较高水平.
3.3 SPP-SVM失效识别实验研究
将NASA锂电池数据集中的数据等分为两部分,得到训练集和测试集,分别基于以下算法训练模型开展对比实验:SVM算法(设置C=10)、使用遗传算法(GA)对SVM惩罚参数进行寻优的GA-SVM算法、使用粒子群寻优(PSO)对SVM惩罚参数进行寻优的PSO-SVM算法,以及本文提出的SPP-SVM算法. 在基于GA-SVM和PSO-SVM训练模型时,以训练集十折交叉验证结果的F1平均值最大为寻优目标. 在基于SPP-SVM训练模型时,设置L+=25段,L−=7段. 本实验中所用算法的核函数均选择高斯核函数,鉴于训练集数据量较小,核参数σ选取为0.1[26],识别结果如表2所示.
表 2 锂电池数据集上识别效果Table 2. Identification results on lithium-ion battery dataset算法 准确率 查准率 查全率 F1 误差率 耗时/s SVM 0.936 0.886 0.799 0.841 0.064 0.103 GA-SVM 0.978 0.928 0.969 0.948 0.022 64.399 PSO-SVM 0.978 0.928 0.969 0.948 0.022 24.424 SPP-SVM 0.979 0.954 0.95 0.952 0.021 1.391 NASA的锂电池数据在实验室环境下采集,正、负样本数量分别为498个和132个,样本不平衡程度较低. 从表2可见,SPP-SVM算法与GA-SVM、PSO-SVM算法相比,模型训练耗时缩减了20倍,分类准确率和F1值也有所提升.
实际应用中,由于机载蓄电池定期检测,采集到的数据记录中失效样本大多接近于失效阈值,分布范围与样本数量远小于健康样本,样本不平衡程度更大. 为模拟实际应用场景下的数据采集情况,验证SPP-SVM算法在更为严重的样本不平衡条件下的性能优势,按照以下2种方式减少锂电池负样本数量,加剧不平衡程度,构建样本集:
1) 从锂电池数据集中截取电池容量在2.0~1.3 A·h内的充电数据,使得失效样本的容量分布范围在1.3~1.4 A·h. 由此得到锂电池不平衡样本集T1,其中,健康样本498条,失效样本98条.
2) 对原始数据集中健康样本不做处理,只保留失效阈值1.4 A·h附近的少数故障样本,使每个电池数据中正、负样本数量比在10∶1以内,得到锂电池不平衡样本集T2. 由于6号电池原始数据中便不存失效样本,T2中健康样本498条,失效样本32条.
基于样本集T1、T2,分别采用SVM(C=10)、GA-SVM、PSO-SVM和SPP-SVM进行电池失效数据识别实验,对比样本不平衡度加大情况下的算法性能. 实验中,设置L+=n+/10,L−=n−/10. 不同算法在T1和T2测试集中识别结果的各项分类指标分别如表3和表4所示.
表 3 锂电池样本数据集T1上的识别效果Table 3. Identification results on lithium-ion battery sample dataset T1算法 准确率 查准率 查全率 F1 误差率 耗时/s SVM 0.929 0.852 0.688 0.807 0.071 0.081 GA-SVM 0.973 0.956 0.878 0.915 0.027 55.131 PSO-SVM 0.966 0.898 0.898 0.898 0.034 21.994 SPP-SVM 0.979 0.943 0.931 0.936 0.021 1.325 表 4 锂电池样本数据集T2上的识别效果Table 4. Identification results on lithium-ion battery sample dataset T2算法 准确率 查准率 查全率 F1 误差率 耗时/s SVM 0.939 0 0 0 0.061 0.041 GA-SVM 0.962 0.75 0.563 0.643 0.038 31.211 PSO-SVM 0.962 0.75 0.563 0.643 0.038 12.407 SPP-SVM 0.985 0.857 0.919 0.883 0.015 0.935 可以看出,在样本不平衡度加剧的样本集T1、T2上,SVM、GA-SVM和PSO-SVM算法的分类识别效果均明显变差,分类误差率增加. 由于T2存在较严重的样本不平衡,采用与T1相同参数(C=10)设置时,SVM算法甚至未能识别出测试集中的失效样本,导致查准率和查全率均为0. 对比可见,SPP-SVM算法受样本不平衡程度加剧的影响较小,识别性能更加稳定. 随着样本不平衡度的加剧,SPP-SVM的识别准确率、查准率、查全率等指标仍能保持较高水平,分类误差率最低. 在T1和T2上,与GA-SVM和PSO-SVM相比,SPP-SVM训练速度同样具有显著优势,训练耗时降低10倍以上. 同时,SPP-SVM的识别准确率等各项分类指标也显著更高:与GA-SVM相比,SPP-SVM算法在T1上识别准确率提升0.6%,查全率和查准率的调和平均值F1提升2.1%;在T2上识别准确率提升2.3%,F1值提升24.0%,这表明,在锂电池样本不平衡程度越大时,本文提出的SPP-SVM算法识别性能优势越明显.
为验证SPP-SVM算法的普适性,选择加州大学欧文分校(University of California Irvine,UCI)开源数据集中的常用分类数据集Ionosphere、Abalone、Ecoli、Monk2和Monk3,对上述算法性能进行对比. 其中,对于包含2类以上样本的数据集,从Ionosphere数据集选择其中较难区分的b类和g类样本用于开展实验;同理,从Abalone数据集中选择第11类和16类样本数据,从Ecoli数据集中选择im类和pp类样本,分别开展对比实验. 对Ionosphere、Abalone和Ecoli数据集均匀地等分训练集和测试集. Monk2以及Monk3数据集中均只有2类样本,且已经由提供数据的研究者划分好了训练集和测试集,因此,训练集和测试集的样本数量不同. 各类SVM算法对Ionosphere等数据集的分类识别效果如表5. 表中,各数据集名称下依次表示数据类型和对应的训练集、测试集中的正/负样本数量. 例如,Ecoli下面的im vs pp代表使用该数据集中的im类和pp类数据开展实验,(39 26)表示训练集中im类和pp类的数据量分别为39条与26条,(38 26)则表示在测试集中im类和pp类的数据量分别为38条与26条.
表 5 UCI数据集识别效果Table 5. Identification results on UCI datasets数据集 算法 准确率 查准率 查全率 F1值 误差率 耗时/s Ionosphere
b vs g
(112 113)
(112 113)SVM 0.886 0.938 0.833 0.882 0.114 0.075 GA-SVM 0.943 1.000 0.841 0.914 0.057 403.936 PSO-SVM 0.949 1.000 0.857 0.923 0.051 91.848 SPP-SVM 0.950 0.960 0.900 0.929 0.050 2.833 Abalone
11 vs 16
(244 34)
(243 33)SVM 0.893 0 0 0 0.107 0.062 GA-SVM 0.878 0.500 0.529 0.514 0.122 342.219 PSO-SVM 0.878 0.500 0.529 0.514 0.122 98.610 SPP-SVM 0.900 0.624 0.614 0.619 0.100 5.227 Ecoli
im vs pp
(39 26)
(38 26)SVM 0.809 0.759 0.679 0.717 0.191 0.014 GA-SVM 0.908 0.813 1.000 0.897 0.092 17.118 PSO-SVM 0.923 0.889 0.923 0.906 0.077 4.143 SPP-SVM 0.940 0.913 0.942 0.927 0.060 0.368 Monk2
1 vs 2
(104 64)
(289 142)SVM 0.671 0 0 0 0.338 0.005 GA-SVM 0.805 0.649 0.887 0.750 0.195 155.723 PSO-SVM 0.821 0.688 0.838 0.756 0.179 52.762 SPP-SVM 0.828 0.695 0.852 0.766 0.172 0.227 Monk3
1 vs 2
(59 62)
(227 204)SVM 0.912 0.874 0.951 0.911 0.088 0.002 GA-SVM 0.961 0.979 0.936 0.957 0.039 59.241 PSO-SVM 0.959 1.000 0.919 0.958 0.041 29.379 SPP-SVM 0.963 0.948 0.975 0.961 0.037 0.095 对比可见,本文所提的SPP-SVM算法在各个数据集上均表现最好,识别准确率和F1值最高,识别误差率最低. 以正负样本比大于7∶1的Abalone数据集为例,SPP-SVM的分类查准率和查全率的调和平均值F1提高了20%,识别误差率也显著下降. 同时,与GA-SVM和PSO-SVM相比,SPP-SVM在全部数据集上的训练耗时都明显更低,耗时至少降低10倍.
4. 结 论
1) 针对SVM在样本不平衡应用场景下的超平面偏移问题,本文提出风险损失惩罚参数分段自调整的方法,对SVM算法进行优化,得到分段惩罚参数支持向量机算法SPP-SVM. 基于NASA锂电池数据集研究了SPP-SVM采用不同分段等级设置时算法的分类性能,结果表明,不同分段等级下的SPP-SVM识别性能较稳定;通过增加正负类分段等级比,可以提升查全率;在分段等级设置为样本数量的1/10时,识别效果相对最好.
2) 将SPP-SVM与GA-SVM、PSO-SVM分别应用于锂电池数据集试验对比,结果显示SPP-SVM识别效果更好,时间成本显著降低. 在增加样本不平衡程度处理后的锂电池数据集上进一步实验表明,随着数据集不平衡程度的加剧,SPP-SVM的性能优势更加显著. 采用多个UCI数据集开展对比试验,证明了SPP-SVM算法性能优势具有普适性,在不同数据集上均有具备性能优势.
3) 本文提出的SPP-SVM为支持向量机的应用研究展现一个新的思路,后续研究将进一步探索惩罚参数分段自调整的思路在SVM衍生算法上的应用效果.
-
表 1 MVB网络常见故障
Table 1. Typical faults of MVB network
故障名称 故障描述 断路故障 MVB电缆或连接器断开,部分设备离线 短路故障 MVB两根电缆或连接器针脚之间短接,导致MVB网络通信中断 终端电阻缺失 因人为或外力因素造成终端电阻缺失,出现严重的阻抗不匹配,造成信号严重畸变 收发器电路故障 因元器件老化等原因造成在此设备处阻抗突变,从而造成信号畸变 连接器
老化连接器老化导致接触电阻增大,造成传输阻抗不匹配,信号物理波形质量下降 电缆性能退化 因安装不当、老化等原因,造成电缆传输特性阻抗发生变化,造成信号物理波形质量下降,导致MVB网络通信性能退化 表 2 不同已标记训练样本数下的分类准确率
Table 2. Classification accuracy under different numbers of labeled samples
% -
[1] LUEDICKE D, LEHNER A. Train communication networks and prospects[J]. IEEE Communications Magazine, 2019, 57(9): 39-43. doi: 10.1109/MCOM.001.1800957 [2] 李召召,王立德,岳川,等. 基于MKLSVM的MVB端接故障诊断[J]. 北京交通大学学报,2019,43(2): 100-106. doi: 10.11860/j.issn.1673-0291.20180128LI Zhaozhao, WANG Lide, YUE Chuan, et al. Terminating fault diagnosis of MVB based on MKLSVM[J]. Journal of Beijing Jiaotong University, 2019, 43(2): 100-106. doi: 10.11860/j.issn.1673-0291.20180128 [3] LI Z Z, WANG L D, YANG Y Y. Fault diagnosis of the train communication network based on weighted support vector machine[J]. IEEJ Transactions on Electrical and Electronic Engineering, 2020, 15(7): 1077-1088. doi: 10.1002/tee.23153 [4] KIRANYAZ S, INCE T, ABDELJABER O, et al. 1-D convolutional neural networks for signal processing applications[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. New York: IEEE, 2019: 8360-8364. [5] WANG Y L, PAN Z F, YUAN X F, et al. A novel deep learning based fault diagnosis approach for chemical process with extended deep belief network[J]. ISA Transactions, 2020, 96: 457-467. doi: 10.1016/j.isatra.2019.07.001 [6] LU C, WANG Z Y, QIN W L, et al. Fault diagnosis of rotary machinery components using a stacked denoising autoencoder-based health state identification[J]. Signal Process, 2017, 130: 377-388. doi: 10.1016/j.sigpro.2016.07.028 [7] DE BRUIN T, VERBERT K, BABUSKA R. Railway track circuit fault diagnosis using recurrent neural networks[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(3): 523-533. doi: 10.1109/TNNLS.2016.2551940 [8] CAO X Y, YAO J, XU Z B, et al. Hyperspectral image classification with convolutional neural network and active learning[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(7): 4604-4616. doi: 10.1109/TGRS.2020.2964627 [9] BI H X, XU F, WEI Z Q, et al. An active deep learning approach for minimally supervised PolSAR image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(11): 9378-9395. doi: 10.1109/TGRS.2019.2926434 [10] ZHANG A M, LI B H, WANG W H, et al. MII:a novel text classification model combining deep active learning with BERT[J]. CMC-Comput. Mat. Contin, 2020, 63(3): 1499-1514. [11] ZHAO Xiukuan, LI Min, XU Jinwu, et al. An effective procedure exploiting unlabeled data to build monitoring system[J]. Expert Systems with Applications, 2011, 38(8): 10199-10204. doi: 10.1016/j.eswa.2011.02.078 [12] PENG Peng, ZHANG Wenjia, ZHANG Yi, et al. Cost sensitive active learning using bidirectional gated recurrent neural networks for imbalanced fault diagnosis[J]. Neurocomputing, 2020, 407: 232-245. doi: 10.1016/j.neucom.2020.04.075 [13] KUMAR P, GUPTA A. Active learning query strategies for classification, regression, and clustering: a survey[J]. Journal of Computer Science and Technology, 2020, 35(4): 913-945. doi: 10.1007/s11390-020-9487-4 [14] RAHHAL M M Al, BAZI Y, ALHICHRI H, et al. Deep learning approach for active classification of electrocardiogram signals[J]. Information Science, 2016, 345: 340-354. doi: 10.1016/j.ins.2016.01.082 [15] JIANG P, HU Z X, LIU J, et al. Fault diagnosis based on chemical sensor data with an active deep neural network[J]. Sensors, 2016, 16(10): 1695 [16] SHIM J, KANG S, CHO S. Active learning of convolutional neural network for cost-effective wafer map pattern classification[J]. IEEE Transactions on Semiconductor Manufacturing, 2020, 33(2): 258-266. doi: 10.1109/TSM.2020.2974867 [17] 朱琴跃,谢维达,谭喜堂. MVB协议一致性测试研究与实现[J]. 铁道学报,2007,29(4): 115-120. doi: 10.3321/j.issn:1001-8360.2007.04.024ZHU Qinyue, XIE Weida, TAN Xitang. Research on MVB protocol conformance testing[J]. Journal of the China Railway Society, 2007, 29(4): 115-120. doi: 10.3321/j.issn:1001-8360.2007.04.024 [18] CHEN M, ZHU K, WANG R, et al Dusit. active learning-based fault diagnosis in self-organizing cellular networks[J]. IEEE Communications Letters, 2020, 24(8): 1734-1737. doi: 10.1109/LCOMM.2020.2991449 -