Lithium-Ion Battery Failure Identification Based on Segmented Penalty Parameter Support Vector Machine Algorithm
-
摘要:
在机载锂电池失效识别等样本不平衡的应用场景中,支持向量机(support vector machine,SVM)算法存在分离超平面偏移的问题,为此,提出分段惩罚参数支持向量机(segmented penalty parameters support vector machine,SPP-SVM)算法. 该算法在训练过程中对样本进行分段,并根据各段内样本的识别误差自动调整惩罚参数,从而抑制超平面偏移;基于容量增量分析和灰色关联分析等方法提取并筛选特征,进而基于SPP-SVM算法建立锂电池失效识别模型;以NASA锂电池数据集和加州大学欧文分校(University of California Irvine,UCI)数据集为对象,开展对比实验. 研究结果表明:与结合寻优算法的SVM相比,SPP-SVM算法识别性能更好,在不平衡程度较大的锂电池数据上,
F 1值提升11.7%;在锂电池数据集和UCI数据集上的训练耗时减少了10倍以上;证明在样本不平衡情况下,使用SPP-SVM算法能够有效抑制分离超平面偏移,提升识别效果.-
关键词:
- 锂离子电池 /
- 失效识别 /
- 支持向量机 /
- 样本不平衡 /
- 分段惩罚参数支持向量机
Abstract:In the application scenarios of unbalanced samples such as airborne lithium-ion battery failure identification, the support vector machine (SVM) algorithm has the problem of hyperplane offset separation. To address this issue, the segmented penalty parameter support vector machine (SPP-SVM) algorithm was proposed. The SPP-SVM divided all samples into different segments during the training process and automatically adjusted the penalty parameters of each sample based on the identification errors within each segment, thereby achieving hyperplane offset suppression. The features were extracted and screened based on capacity increment analysis and grey correlation analysis methods, and then, the lithium-ion battery failure identification model was established based on the SPP-SVM algorithm. By utilizing the NASA lithium-ion battery dataset and the University of California Irvine (UCI) datasets as experimental subjects, comparative experiments were conducted. The results show that the SPP-SVM algorithm has better identification performance than SVM combined with optimization algorithms. On the lithium-ion battery dataset with a large degree of imbalance, the
F 1 score is improved by 11.7%. The SPP-SVM algorithm reduces the training time on the lithium-ion battery dataset and UCI dataset, offering a tenfold improvement. These results demonstrate that the SPP-SVM algorithm can effectively suppress hyperplane separation offset and improve identification performance in cases of sample imbalance. -
机载蓄电池作为飞机电源系统的主要功能部件,其性能状态直接关系到系统供电可靠性,进而影响飞行安全[1]. 锂离子电池具有能量密度高、使用寿命长等优势,已经在民用和军用飞机上得到应用[2]. B787锂电池热失控事故暴露了机载锂电池的安全管理问题[3]. 为推动锂电池在航空领域的应用发展,需要寻找可靠方法识别监测其健康水平.
电池可用容量是反映电池健康水平的重要指标. 当机载电池可用容量与额定容量之比低于设定阈值时,该电池容量失效,不能再上机使用[4]. 业界通常使用健康状态这一指标来量化电池可用容量与额定容量的比值. 国内外学者对锂电池健康状态评估开展了诸多研究,所用方法主要包括直接测量法、基于模型的方法和数据驱动法[5]. 航线上检测机载蓄电池可用容量所采用的满容量充放电法便属于直接测量法,该方法可靠性高,但成本大且会损耗电池寿命[6]. 基于模型的方法主要包括电化学模型、等效电路模型和经验模型[7-9]. 此类方法评估精度依赖于所建模型的准确程度[10],在条件恶劣、各项因素复杂的机载应用场景,难以建立准确模型. 数据驱动法无需分析电池内部特性,不会额外损耗电池寿命,为业界广泛关注[11-12]. 目前,基于数据驱动法对锂电池健康状态的研究聚焦于拟合回归曲线开展容量评估,而采用分类算法来识别电池容量失效的研究较少. 现有容量评估模型的识别精度对于失效阈值附近的样本表现不佳,且难以像失效分类方法那样通过调参以使模型侧重于识别失效样本[13]. 同时,现有研究主要针对电动汽车的动力电池,对机载应用的研究较少.
神经网络、随机森林、支持向量机(SVM)等分类算法在逆变器、轴承等工程设备的失效识别上得到了广泛应用[14-18]. 其中,神经网络等深度学习类算法对数据量要求较大[19-20];随机森林在锂电池数据集上的表现相对不理想;而SVM算法在小样本、非线性问题上表现良好[21],与本文应用场景较为契合,故选择SVM算法开展锂电池失效识别研究. 根据维修手册规定,对于装机使用的蓄电池,必须按照飞行小时或者日历月定期进行容量检测,容量失效的电池必须更换[22]. 对于车载应用中的蓄电池,电池容量与续航里程密切相关,但是对行驶安全的影响相对较小,对电池容量失效的检测和更换相对不够及时[23-24]. 因此,与车载电池相比,机载蓄电池的维护运行数据记录中,锂电池健康样本数量远大于容量失效样本的数量,存在较大的健康与失效样本数量差距,即样本不平衡问题. 在基于样本不平衡的数据集使用SVM算法训练模型时,存在分离超平面偏移现象,影响分类性能[25]. 目前,使用SVM解决样本不平衡问题的主流方法是给不同类别样本分别赋值不同的惩罚参数,并借助各种寻优算法在训练过程进行寻优调参:文献[16]提出一种新型进化算法烟花算法,将其应用于SVM的惩罚参数寻优,实现对滚动轴承故障的准确诊断;文献[17]采用粒子群优化算法(PSO)对SVM惩罚参数寻优,建立PSO-SVM模型实现对机载电源系统的风险识别. 基于优化算法选择SVM惩罚参数的方法能够抑制样本不平衡引起的分离超平面偏移,但是存在耗时较长且难以避免局部最优的不足.
针对机载锂电池失效识别任务中,健康样本和失效样本数量不平衡导致分离超平面偏移的问题,以及现有惩罚参数选择方法的不足,本文提出惩罚参数分段自调整的思路:对各个样本类别划分不同的分段等级,根据各分段等级内的分类识别误差赋值并修正样本的惩罚参数,实现迭代过程中自动调整每个训练样本的SVM惩罚参数,进而提出分段惩罚参数支持向量机(SPP-SVM)算法,抑制样本不平衡引起的超平面偏移,实现对锂电池容量失效样本的准确识别.
1. 样本不平衡时的SVM超平面偏移
依据间隔最大化原则,SVM基于训练集T={(x1,y1), (x2,y2), $\cdots $,(xN,yN)}在高维特征空间寻找最大间隔分离超平面,实现对正负类样本的分类识别. xi和yi分别为训练集中样本i的特征向量和所属类别,yi=±1分别代表样本属于正类/负类,i=1, 2, $\cdots $, N. SVM根据训练集T训练得到分离超平面H(x),表达式为w·x + b=0,其中,w为权值矢量,x为输入样本的特征向量值,b为截距. SVM寻找分离超平面的过程可表示为求解式(1)所示的约束最优化问题[26].
{minw,b,ξi 12‖w‖2+CN∑i=1ξi, s.t. yi(w•xi+b)⩾1−ξi, ξi⩾0, (1) 式中:C为风险损失惩罚参数,ξi为松弛变量.
构建拉格朗日函数,根据对偶性求解式(1),得到最优解. 此时,分类决策函数为
f(x)=sgn(N∑i=1αiyiK(x,xi)+b), (2) 式中:αi为拉格朗日乘子,K(x,xi)为核函数.
机载蓄电池实际工作中,失效样本(即负类样本)的数量相对很少,样本不平衡. 这种情况下,SVM算法面临分离超平面偏移问题,影响分类识别性能.
从NASA (National Aeronautics and Space Administration)实验室的锂电池数据集中选取5、7、18号电池的充电数据,并从中提取具有线性关系的恒流(constant current,CC)充电时长和恒压(constant voltage,CV)充电时长这两项特征,分别按照最大绝对值归一化方法处理,构建训练集A. 按照电池容量是否低于额定容量的70%,划分健康和失效样本(以下简称为正、负样本),训练集A中,正、负样本数量比约为6∶1,样本不平衡. 从A中均匀去除正样本,直至正、负样本数量比接近1∶1,得到训练集B. 在分类识别任务,SVM的风险损失惩罚参数C取值通常设置在0~100之间[27-28]. 在样本不平衡场景下,为分析C的取值偏大和偏小对SVM分类效果的影响,分别设置C=100,10,选择多项式核函数,依次使用数据集A、B训练模型,将分类效果可视化,得到图1. 图中,横、纵坐标为归一化后的值,蓝色和红色点分别代表正、负样本,黑色斜线代表SVM根据训练集寻找到的分离超平面.
由图1(a)、(c)可以看出,基于样本不平衡的数据集A开展训练时,SVM分离超平面向负类样本区域偏移,大量负样本被误判,C取值较大可以一定程度抑制偏移,但效果不理想. 如图1(b)、(d)所示,在使用样本数量平衡的数据集B开展训练时,分离超平面向负类区域的偏移能够得到抑制,但这种去除部分正样本的方式会导致训练数据损失,且此时正样本分布范围大且相对稀疏,会导致超平面出现反向偏移,造成对正样本的误判,C取值越小,该现象越明显.
目前,使用SVM解决该问题的主流方法是给正、负类样本分别赋值不同的惩罚参数,通过PSO等寻优算法在训练过程中对正、负类惩罚参数进行寻优[17]. 但是这种方式忽略了不同样本点信息价值差异,且计算量较大,偏移抑制效果不稳定.
为解决超平面偏移问题,充分挖掘各个样本蕴含信息,本文对SVM算法进行改进,提出一种分段惩罚参数支持向量机算法.
2. 分段惩罚参数支持向量机算法
考虑不同样本蕴含信息价值的差异,给各个样本赋予不同的风险损失惩罚参数,如式(3)所示.
{minw,b,ξi 12‖w‖2+N∑i=1Ciξi, s.t. yi(w•xi+b)⩾1−ξi, ξi⩾0, (3) 式中:Ci为样本i的风险损失惩罚参数.
Ci按照经验设置初始值为10,训练得到初始分离超平面和分类决策函数,计算样本i到分离超平面的几何距离γi,如式(4)所示.
γi=yi(w‖w‖xi+b‖w‖). (4) 2.1 惩罚参数分段自调整方法
在数据集样本不平衡的情况下,SVM分离超平面向数量较少的负类区域偏移. 样本的几何距离越小,意味着该样本距离分离超平面越近,越容易被分类错误. 惩罚参数是影响SVM训练的重要参数,惩罚参数越大的样本对模型训练的影响越大,在训练过程中调整各样本的惩罚参数,可以调整平衡模型对正/负类别的识别能力,提高分类识别效果. 因此,本文对正、负类样本分别按照几何距离划分等级,使得不同等级下包含的样本数量和分布范围尽量接近,并基于所属等级和该等级内的样本识别准确率建立表达式,实现惩罚参数分段自调整,抑制超平面偏移.
首先,根据几何距离对正类和负类样本分别赋值距离等级,以样本i为例,其距离等级为
l i={ent((γi−γ+min)/γ+max)L++1,y∗i=+1, ent((|γi|−|γ−min|)/|γ−max|)L−+1,y∗i=−1, (5) 式中:$ \gamma _{\max }^ + $和$ \gamma _{\min }^ + $分别为分类结果中所有正样本到分离超平面的几何距离中的最大值和最小值,$ \gamma _{\max }^ - $和$ \gamma _{\min }^ - $分别为负样本到分离超平面几何距离的最大值和最小值,L+和L−分别为正类和负类样本的分段等级数量,$y_i^* $为样本i的识别结果.
根据分类结果,对正/负类中存在误判样本的等级下的全部样本,根据式(6)调整放大风险损失惩罚参数,增强模型训练时对这些样本的关注程度.
C∗i={Ci√(1−0.5a+j)(L+−li)0.5a+j, y∗i=+1,Ci√(1−0.5a−j)(L−−li)0.5a−j, y∗i=−1, (6) 式中:j=li,为样本i所属的距离等级;$a_j^+、a_j^- $分别为对于预测的正、负类样本,在距离等级j中样本的识别准确率.
根据式(6),距离分离超平面越近的样本,惩罚参数放大幅度越大.
为避免超调,对$a_j^+、a_j^- $设置下限0.1,如式(7)所示.
{a+j=max{0.1, 1−(N+j∑i=0|Ei|)/N+j},a−j=max{0.1, 1−(N−j∑i=0|Ei|)/N−j}, (7) 式中:Ei为样本i的预测值和真实值的差值,Nj+和Nj−分别为正、负类中等级j内的样本数量.
对于正、负类中不包含误判样本的距离等级,当该等级所属类别的识别准确率高于另一类时,该等级下样本的风险损失惩罚参数则按照式(8)调整缩小.
C∗i={Ci√0.5a+j((1−0.5a+j)(L+−li)), y∗i=+1,Ci√0.5a−j((1−0.5a−j)(L−−li)), y∗i=−1. (8) 2.2 SPP-SVM算法流程
将锂电池数据等分为训练集和测试集,并从训练集中分出一半的数据作为验证集. 在SPP-SVM算法迭代的过程中,为避免过拟合,通过训练集训练模型,使用验证集验证模型效果并调整参数. SPP-SVM算法流程如图2所示,具体步骤如下:
步骤1 对各个样本惩罚参数赋初值为10,对正、负样本按照数量比确定分段等级数量.
步骤2 使用训练集,根据当前迭代轮数下的惩罚参数训练SPP-SVM分类识别模型,对训练集和验证集中样本进行识别,根据分类识别结果计算各样本到分离超平面的几何距离,解算准确率、查全率和查准率等分类性能指标.
步骤3 分析模型分类识别效果. 若存在某类样本的识别准确率小于10%,则使该类样本的风险损失惩罚参数翻倍,然后重复步骤2再次训练;否则,进行下一步.
步骤4 根据模型对验证集中样本的识别结果,将识别为正类和负类的样本分别基于几何距离划分距离等级. 随后,计算验证集中正/负类全部样本的识别准确率,以及正/负类中每个距离等级下的样本识别准确率. 对两类别中存在误判样本的距离等级,该等级下全部样本按照式(6)放大惩罚参数. 对于识别准确率更高的类别中不含误判样本的距离等级,则按照式(8)缩小这些等级中各样本的惩罚参数. 实现在迭代过程中各个样本惩罚参数的分段调整.
步骤5 训练过程中,若模型识别的准确率、查全率、查准率等分类性能指标连续3轮迭代中变化幅度均小于1%,说明模型已经收敛,此时,停止训练,输入测试集分析模型最终训练效果;否则,代入分段调整后的风险损失惩罚参数,回到步骤2继续进行模型训练.
3. 基于SPP-SVM的锂电池失效识别
3.1 特征提取
本文所用数据来源为NASA实验室的
18650 锂电池全寿命周期充放电数据集,电池基本参数信息如表1所示. 实验过程中,NASA研究者将锂电池在室温环境进行充放电循环,当电池可用容量不足出厂额定容量的70%,将其视为失效,即容量小于1.4 A·h的样本视为失效样本. 选取5、6、7、18号四块电池数据进行实验.表 1 NASA实验所用锂电池参数Table 1. Parameters of lithium-ion battery used in NASA experiments参数类型 参数值 电池型号 18650 最大充电截止电压/V 4.20 最小放电截止电压/V 2.75 额定电压/V 3.6 出厂额定容量/(A·h) 2 充电温度范围/℃ 0~45 放电温度范围/℃ −20~60 机载蓄电池通常在地面充电,数据采集方便且充电模式固定,故选择从充电阶段数据中提取特征. 通过数据可视化,观察实验中采集的不同电池充电电压、电流及温度曲线发现:随着充放电次数增加,CC充电时长、CV充电时长、充电之初温度下降时长等特征随电池容量衰退而变化.
除上述可以直接观察到的特征外,电池充电曲线中还蕴含着反映电池内在特定化学反应过程的微分特征. 因此,进一步对锂电池充电电压数据进行容量增量(incremental capacity,IC)分析,提取微分特征. 恒流充电过程中,电池的充电容量Q根据充电电流I和时长计算,如式(9)所示.
Q=∫t1t0I dt, (9) 式中:t0、t1分别为充电开始、结束时刻.
容量增量计算如式(10)所示[29].
dQdV≈ΔQΔV=IΔtΔV, (10) 式中:$ \Delta Q $为电压增加$ \Delta V $时的容量变化,$ \Delta V $为经过一个固定采样时间间隔$ \Delta t $后电压值的变化.
为获取容量增量数据绘制IC曲线,需要以电压变化或时间变化作为数据采集的判定指标[29],本文以时间变化为指标,参考经验值,设置采样时间间隔为10 s. 同时基于Savitzky-Golay滤波和卡尔曼滤波(Kalman filter,KF)对IC曲线进行平滑降噪后,得到不同充电次数下的IC曲线.
图3中绘制了充放电次数以步长17从1次增加到154次,容量从1.85 A·h下降到1.32 A·h过程中,5号电池的10条IC曲线. 可以看出:随着电池容量下降,IC曲线起点逐渐右移;电压3.8~4.1 V的IC曲线波峰面积随之下降;电压4.1 V之后的IC曲线末端均值减少. 由此提取IC曲线起点、IC曲线波峰面积和IC曲线末端均值3项特征.
为研究上述特征与电池实际容量之间的相关性,基于泊松系数开展相关性分析. 计算各项特征与电池实际容量数据之间的泊松系数,筛选得到4项特征:CC充电时长、充电之初温度下降时长、IC曲线波峰面积和IC曲线末端均值组成特征集.
考虑到量纲差异,对数据进行去噪处理,并在提取特征后进行归一化处理,将数据集线性缩放到[0,1]内. 最终得到锂电池特征数据集,其中,健康样本498条,失效样本132条,正、负样本比例约为3.8∶1,样本不平衡. 本文实验均在Intel Core i5-12400F,2.5 GHz CPU, 16 G内存的Windows 11系统下的PC机上利用python 3.10进行.
3.2 惩罚参数分段调整效果对比
为分析惩罚参数分段调整思想对SVM算法训练过程的影响,分别采用SVM和SPP-SVM开展实验进行验证. 实验设置10次循环,每次随机等分不同的训练集和测试集,将10次循环下分类识别指标的平均值作为验证结果.
反映算法分类效果的主要指标包括准确率、查准率和查全率. 准确率为识别正确的样本数量与全部样本数量的比值,反映样本的分类识别精度;查准率P代表被模型识别为负类的样本中识别正确的比率;查全率R代表负类样本被成功识别的比率. P=n11/(n11 + n01),R=n11/(n11 + n10). 其中,n11为被正确识别的负类样本数量,n01为被错误识别为负类的正类样本数量,n10为被错误识别为正类的负类样本数量. 上述指标范围均在[0,1]之间,取值越大,说明模型分类识别效果越好. 为综合查全率和查准率指标衡量算法效果,引入查准率和查全率的调和平均数F1作为考量模型对负类样本识别效果的指标,见式(11).
F1=1/(1P+1R). (11) 为对比惩罚参数分段调整的作用,首先使用传统SVM训练模型进行验证,其核函数为高斯核函数. 训练过程中,参照式(6),根据当前迭代次数下正、负样本的识别准确率a+和a−,对正、负样本的风险损失惩罚参数C1和C2进行调整,如式(12)所示.
C∗i={C1√1−0.5a+ /√0.5a+ , y∗i=+1,C2√1−0.5a− /√0.5a− , y∗i=−1. (12) 使用SPP-SVM训练模型时,设置L+=25段,L−=2段,固定迭代次数为50次,得到训练过程中SVM和SPP-SVM的识别准确率、查准率、查全率及F1值的交叉验证结果,如图4所示.
由图4可以看出,使用SVM按照正、负样本的分类准确率调整C1和C2时,各项分类识别指标均随迭代次数增加而逐渐上升,说明采用式(12)能够有效SVM调整惩罚参数. 但是该方式训练所需时间较长,在迭代40次之后各项指标才基本趋于平稳,且对负样本的识别查准率较低. 使用SPP-SVM引入惩罚参数分段调整后,能够在迭代15次时便得到稳定的分类性能. 对比可见,SPP-SVM算法训练收敛速度更快,稳定状态下各指标波动幅度更小,查全率、查准率等指标均更高.
SPP-SVM算法实现自动调整各样本惩罚参数的同时,也引入了正负类分段等级数量参数L+和L-. 为分析其对SPP-SVM算法的性能影响,设置L+=25段,L−=4,7段;以及设置L−=7段,L+=7,120段,进行性能对比. 迭代中,模型各分类性能指标交叉验证结果的变化情况如图5所示.
对比图5(a)、(b)和图4(b)可见,在L+=25段即正类中各等级下的样本数量基本为10个时,L− 的变化对算法分类性能影响较小,此时,在测试集上对负类样本的查全率和查准率基本持平,都处于较高水平,且算法收敛速度相近. 设置L−=7段使得负类中各等级下样本数量接近10个,令L+=L−,此时,训练得到的模型虽然F1值基本未变且查准率提升,但是查全率下降. 保持L−=7段不变,放大L+ 至120段,如图5(d),此时,负样本查全率显著提升,但查准率和F1值降低,且迭代过程中各项分类指标波动明显,收敛性差. 对比图5中各图,当L+=25段且L−=7段时,SPP-SVM识别效果最好. 即根据正、负类样本数量n+和n−,分别设置L+=n+/10,L−=n−/10时,SPP-SVM能有效平衡正负类样本识别能力,查全率和查准率都处于较高水平.
3.3 SPP-SVM失效识别实验研究
将NASA锂电池数据集中的数据等分为两部分,得到训练集和测试集,分别基于以下算法训练模型开展对比实验:SVM算法(设置C=10)、使用遗传算法(GA)对SVM惩罚参数进行寻优的GA-SVM算法、使用粒子群寻优(PSO)对SVM惩罚参数进行寻优的PSO-SVM算法,以及本文提出的SPP-SVM算法. 在基于GA-SVM和PSO-SVM训练模型时,以训练集十折交叉验证结果的F1平均值最大为寻优目标. 在基于SPP-SVM训练模型时,设置L+=25段,L−=7段. 本实验中所用算法的核函数均选择高斯核函数,鉴于训练集数据量较小,核参数σ选取为0.1[26],识别结果如表2所示.
表 2 锂电池数据集上识别效果Table 2. Identification results on lithium-ion battery dataset算法 准确率 查准率 查全率 F1 误差率 耗时/s SVM 0.936 0.886 0.799 0.841 0.064 0.103 GA-SVM 0.978 0.928 0.969 0.948 0.022 64.399 PSO-SVM 0.978 0.928 0.969 0.948 0.022 24.424 SPP-SVM 0.979 0.954 0.95 0.952 0.021 1.391 NASA的锂电池数据在实验室环境下采集,正、负样本数量分别为498个和132个,样本不平衡程度较低. 从表2可见,SPP-SVM算法与GA-SVM、PSO-SVM算法相比,模型训练耗时缩减了20倍,分类准确率和F1值也有所提升.
实际应用中,由于机载蓄电池定期检测,采集到的数据记录中失效样本大多接近于失效阈值,分布范围与样本数量远小于健康样本,样本不平衡程度更大. 为模拟实际应用场景下的数据采集情况,验证SPP-SVM算法在更为严重的样本不平衡条件下的性能优势,按照以下2种方式减少锂电池负样本数量,加剧不平衡程度,构建样本集:
1) 从锂电池数据集中截取电池容量在2.0~1.3 A·h内的充电数据,使得失效样本的容量分布范围在1.3~1.4 A·h. 由此得到锂电池不平衡样本集T1,其中,健康样本498条,失效样本98条.
2) 对原始数据集中健康样本不做处理,只保留失效阈值1.4 A·h附近的少数故障样本,使每个电池数据中正、负样本数量比在10∶1以内,得到锂电池不平衡样本集T2. 由于6号电池原始数据中便不存失效样本,T2中健康样本498条,失效样本32条.
基于样本集T1、T2,分别采用SVM(C=10)、GA-SVM、PSO-SVM和SPP-SVM进行电池失效数据识别实验,对比样本不平衡度加大情况下的算法性能. 实验中,设置L+=n+/10,L−=n−/10. 不同算法在T1和T2测试集中识别结果的各项分类指标分别如表3和表4所示.
表 3 锂电池样本数据集T1上的识别效果Table 3. Identification results on lithium-ion battery sample dataset T1算法 准确率 查准率 查全率 F1 误差率 耗时/s SVM 0.929 0.852 0.688 0.807 0.071 0.081 GA-SVM 0.973 0.956 0.878 0.915 0.027 55.131 PSO-SVM 0.966 0.898 0.898 0.898 0.034 21.994 SPP-SVM 0.979 0.943 0.931 0.936 0.021 1.325 表 4 锂电池样本数据集T2上的识别效果Table 4. Identification results on lithium-ion battery sample dataset T2算法 准确率 查准率 查全率 F1 误差率 耗时/s SVM 0.939 0 0 0 0.061 0.041 GA-SVM 0.962 0.75 0.563 0.643 0.038 31.211 PSO-SVM 0.962 0.75 0.563 0.643 0.038 12.407 SPP-SVM 0.985 0.857 0.919 0.883 0.015 0.935 可以看出,在样本不平衡度加剧的样本集T1、T2上,SVM、GA-SVM和PSO-SVM算法的分类识别效果均明显变差,分类误差率增加. 由于T2存在较严重的样本不平衡,采用与T1相同参数(C=10)设置时,SVM算法甚至未能识别出测试集中的失效样本,导致查准率和查全率均为0. 对比可见,SPP-SVM算法受样本不平衡程度加剧的影响较小,识别性能更加稳定. 随着样本不平衡度的加剧,SPP-SVM的识别准确率、查准率、查全率等指标仍能保持较高水平,分类误差率最低. 在T1和T2上,与GA-SVM和PSO-SVM相比,SPP-SVM训练速度同样具有显著优势,训练耗时降低10倍以上. 同时,SPP-SVM的识别准确率等各项分类指标也显著更高:与GA-SVM相比,SPP-SVM算法在T1上识别准确率提升0.6%,查全率和查准率的调和平均值F1提升2.1%;在T2上识别准确率提升2.3%,F1值提升24.0%,这表明,在锂电池样本不平衡程度越大时,本文提出的SPP-SVM算法识别性能优势越明显.
为验证SPP-SVM算法的普适性,选择加州大学欧文分校(University of California Irvine,UCI)开源数据集中的常用分类数据集Ionosphere、Abalone、Ecoli、Monk2和Monk3,对上述算法性能进行对比. 其中,对于包含2类以上样本的数据集,从Ionosphere数据集选择其中较难区分的b类和g类样本用于开展实验;同理,从Abalone数据集中选择第11类和16类样本数据,从Ecoli数据集中选择im类和pp类样本,分别开展对比实验. 对Ionosphere、Abalone和Ecoli数据集均匀地等分训练集和测试集. Monk2以及Monk3数据集中均只有2类样本,且已经由提供数据的研究者划分好了训练集和测试集,因此,训练集和测试集的样本数量不同. 各类SVM算法对Ionosphere等数据集的分类识别效果如表5. 表中,各数据集名称下依次表示数据类型和对应的训练集、测试集中的正/负样本数量. 例如,Ecoli下面的im vs pp代表使用该数据集中的im类和pp类数据开展实验,(39 26)表示训练集中im类和pp类的数据量分别为39条与26条,(38 26)则表示在测试集中im类和pp类的数据量分别为38条与26条.
表 5 UCI数据集识别效果Table 5. Identification results on UCI datasets数据集 算法 准确率 查准率 查全率 F1值 误差率 耗时/s Ionosphere
b vs g
(112 113)
(112 113)SVM 0.886 0.938 0.833 0.882 0.114 0.075 GA-SVM 0.943 1.000 0.841 0.914 0.057 403.936 PSO-SVM 0.949 1.000 0.857 0.923 0.051 91.848 SPP-SVM 0.950 0.960 0.900 0.929 0.050 2.833 Abalone
11 vs 16
(244 34)
(243 33)SVM 0.893 0 0 0 0.107 0.062 GA-SVM 0.878 0.500 0.529 0.514 0.122 342.219 PSO-SVM 0.878 0.500 0.529 0.514 0.122 98.610 SPP-SVM 0.900 0.624 0.614 0.619 0.100 5.227 Ecoli
im vs pp
(39 26)
(38 26)SVM 0.809 0.759 0.679 0.717 0.191 0.014 GA-SVM 0.908 0.813 1.000 0.897 0.092 17.118 PSO-SVM 0.923 0.889 0.923 0.906 0.077 4.143 SPP-SVM 0.940 0.913 0.942 0.927 0.060 0.368 Monk2
1 vs 2
(104 64)
(289 142)SVM 0.671 0 0 0 0.338 0.005 GA-SVM 0.805 0.649 0.887 0.750 0.195 155.723 PSO-SVM 0.821 0.688 0.838 0.756 0.179 52.762 SPP-SVM 0.828 0.695 0.852 0.766 0.172 0.227 Monk3
1 vs 2
(59 62)
(227 204)SVM 0.912 0.874 0.951 0.911 0.088 0.002 GA-SVM 0.961 0.979 0.936 0.957 0.039 59.241 PSO-SVM 0.959 1.000 0.919 0.958 0.041 29.379 SPP-SVM 0.963 0.948 0.975 0.961 0.037 0.095 对比可见,本文所提的SPP-SVM算法在各个数据集上均表现最好,识别准确率和F1值最高,识别误差率最低. 以正负样本比大于7∶1的Abalone数据集为例,SPP-SVM的分类查准率和查全率的调和平均值F1提高了20%,识别误差率也显著下降. 同时,与GA-SVM和PSO-SVM相比,SPP-SVM在全部数据集上的训练耗时都明显更低,耗时至少降低10倍.
4. 结 论
1) 针对SVM在样本不平衡应用场景下的超平面偏移问题,本文提出风险损失惩罚参数分段自调整的方法,对SVM算法进行优化,得到分段惩罚参数支持向量机算法SPP-SVM. 基于NASA锂电池数据集研究了SPP-SVM采用不同分段等级设置时算法的分类性能,结果表明,不同分段等级下的SPP-SVM识别性能较稳定;通过增加正负类分段等级比,可以提升查全率;在分段等级设置为样本数量的1/10时,识别效果相对最好.
2) 将SPP-SVM与GA-SVM、PSO-SVM分别应用于锂电池数据集试验对比,结果显示SPP-SVM识别效果更好,时间成本显著降低. 在增加样本不平衡程度处理后的锂电池数据集上进一步实验表明,随着数据集不平衡程度的加剧,SPP-SVM的性能优势更加显著. 采用多个UCI数据集开展对比试验,证明了SPP-SVM算法性能优势具有普适性,在不同数据集上均有具备性能优势.
3) 本文提出的SPP-SVM为支持向量机的应用研究展现一个新的思路,后续研究将进一步探索惩罚参数分段自调整的思路在SVM衍生算法上的应用效果.
-
表 1 NASA实验所用锂电池参数
Table 1. Parameters of lithium-ion battery used in NASA experiments
参数类型 参数值 电池型号 18650 最大充电截止电压/V 4.20 最小放电截止电压/V 2.75 额定电压/V 3.6 出厂额定容量/(A·h) 2 充电温度范围/℃ 0~45 放电温度范围/℃ −20~60 表 2 锂电池数据集上识别效果
Table 2. Identification results on lithium-ion battery dataset
算法 准确率 查准率 查全率 F1 误差率 耗时/s SVM 0.936 0.886 0.799 0.841 0.064 0.103 GA-SVM 0.978 0.928 0.969 0.948 0.022 64.399 PSO-SVM 0.978 0.928 0.969 0.948 0.022 24.424 SPP-SVM 0.979 0.954 0.95 0.952 0.021 1.391 表 3 锂电池样本数据集T1上的识别效果
Table 3. Identification results on lithium-ion battery sample dataset T1
算法 准确率 查准率 查全率 F1 误差率 耗时/s SVM 0.929 0.852 0.688 0.807 0.071 0.081 GA-SVM 0.973 0.956 0.878 0.915 0.027 55.131 PSO-SVM 0.966 0.898 0.898 0.898 0.034 21.994 SPP-SVM 0.979 0.943 0.931 0.936 0.021 1.325 表 4 锂电池样本数据集T2上的识别效果
Table 4. Identification results on lithium-ion battery sample dataset T2
算法 准确率 查准率 查全率 F1 误差率 耗时/s SVM 0.939 0 0 0 0.061 0.041 GA-SVM 0.962 0.75 0.563 0.643 0.038 31.211 PSO-SVM 0.962 0.75 0.563 0.643 0.038 12.407 SPP-SVM 0.985 0.857 0.919 0.883 0.015 0.935 表 5 UCI数据集识别效果
Table 5. Identification results on UCI datasets
数据集 算法 准确率 查准率 查全率 F1值 误差率 耗时/s Ionosphere
b vs g
(112 113)
(112 113)SVM 0.886 0.938 0.833 0.882 0.114 0.075 GA-SVM 0.943 1.000 0.841 0.914 0.057 403.936 PSO-SVM 0.949 1.000 0.857 0.923 0.051 91.848 SPP-SVM 0.950 0.960 0.900 0.929 0.050 2.833 Abalone
11 vs 16
(244 34)
(243 33)SVM 0.893 0 0 0 0.107 0.062 GA-SVM 0.878 0.500 0.529 0.514 0.122 342.219 PSO-SVM 0.878 0.500 0.529 0.514 0.122 98.610 SPP-SVM 0.900 0.624 0.614 0.619 0.100 5.227 Ecoli
im vs pp
(39 26)
(38 26)SVM 0.809 0.759 0.679 0.717 0.191 0.014 GA-SVM 0.908 0.813 1.000 0.897 0.092 17.118 PSO-SVM 0.923 0.889 0.923 0.906 0.077 4.143 SPP-SVM 0.940 0.913 0.942 0.927 0.060 0.368 Monk2
1 vs 2
(104 64)
(289 142)SVM 0.671 0 0 0 0.338 0.005 GA-SVM 0.805 0.649 0.887 0.750 0.195 155.723 PSO-SVM 0.821 0.688 0.838 0.756 0.179 52.762 SPP-SVM 0.828 0.695 0.852 0.766 0.172 0.227 Monk3
1 vs 2
(59 62)
(227 204)SVM 0.912 0.874 0.951 0.911 0.088 0.002 GA-SVM 0.961 0.979 0.936 0.957 0.039 59.241 PSO-SVM 0.959 1.000 0.919 0.958 0.041 29.379 SPP-SVM 0.963 0.948 0.975 0.961 0.037 0.095 -
[1] 宋清超,陈家伟,蔡坤城,等. 多电飞机用燃料电池-蓄电池-超级电容混合供电系统的高可靠动态功率分配技术[J]. 电工技术学报,2022,37(2): 445-458.SONG Qingchao, CHEN Jiawei, CAI Kuncheng, et al. A highly reliable power allocation technology for the fuel cell-battery-supercapacitor hybrid power supply system of a more electric aircraft[J]. Transactions of China Electrotechnical Society, 2022, 37(2): 445-458. [2] 盘朝奉,刘兵,陈龙,等. 锂离子电池温升特性分析及液冷结构设计[J]. 西南交通大学学报,2020,55(1): 68-75. doi: 10.3969/j.issn.0258-2724.20180241PAN Chaofeng, LIU Bing, CHEN Long, et al. Temperature rise characteristic analysis and liquid cooling structure design of lithium battery[J]. Journal of Southwest Jiaotong University, 2020, 55(1): 68-75. doi: 10.3969/j.issn.0258-2724.20180241 [3] National Transportation Safety Board, U. S. Auxiliary power unit battery fire, Japan airlines Boeing 787-8, JA829J, Boston, Massachusetts, January7, 2013[R]. Washington DC: National Transportation Safety Board, 2014. [4] IEEE Power and Energy Society. IEEE recommended practice for maintenance, testing, and replacement of Valve-Regulated Lead-Acid (VRLA) batteries for stationary applications: IEEE 1188aTM—2014[S]. New York: Stationary Batteries Committee, 2014. [5] YANG Y L, CHEN S Y, CHEN T, et al. State of health assessment of lithium-ion batteries based on deep Gaussian process regression considering heterogeneous features[J]. Journal of Energy Storage, 2023, 61: 106797.1-106797.16. [6] YANG S J, ZHANG C P, JIANG J C, et al. Review on state-of-health of lithium-ion batteries: characterizations, estimations and applications[J]. Journal of Cleaner Production, 2021, 314: 128015.1-128015.21. [7] WU L X, LIU K, PANG H, et al. Online SOC estimation based on simplified electrochemical model for lithium-ion batteries considering current bias[J]. Energies, 2021, 14(17): 5265.1-5265.12. [8] GENG Z Y, WANG S Y, LACEY M J, et al. Bridging physics-based and equivalent circuit models for lithium-ion batteries[J]. Electrochimica Acta, 2021, 372: 137829.1-137829.9. [9] 刘伟,杨耕,孟德越,等. 计及常用恒流工况的锂离子电池建模方法[J]. 电工技术学报,2021,36(24): 5186-5200.LIU Wei, YANG Geng, MENG Deyue, et al. Modeling method of lithium-ion battery considering commonly used constant current conditions[J]. Transactions of China Electrotechnical Society, 2021, 36(24): 5186-5200. [10] ZHANG K, YIN J X, HE Y Z. Acoustic emission detection and analysis method for health status of lithium ion batteries[J]. Sensors, 2021, 21(3): 712.1-712.17. [11] 石伟杰,王海民. 基于锂离子电池热特性的SOH在线诊断模型研究[J]. 仪器仪表学报,2020,41(8): 206-216.SHI Weijie, WANG Haimin. On-line diagnosis model of SOH based on thermal characteristics of lithium-ion battery[J]. Chinese Journal of Scientific Instrument, 2020, 41(8): 206-216. [12] 张雪霞,高雨璇,陈维荣. 基于数据驱动的质子交换膜燃料电池寿命预测[J]. 西南交通大学学报,2020,55(2): 417-427.ZHANG Xuexia, GAO Yuxuan, CHEN Weirong. Data-driven based remaining useful life prediction for proton exchange membrane fuel cells[J]. Journal of Southwest Jiaotong University, 2020, 55(2): 417-427. [13] 吴祎. 锂离子电池健康评估及失效分析关键技术研究[D]. 南京:南京航空航天大学,2020. [14] 杨飞,郝晓莉,杨建,等. 基于多车型CNN-GRU性能预测模型的轨道状态评价[J]. 西南交通大学学报,2023,58(2): 322-331.YANG Fei, HAO Xiaoli, YANG Jian, et al. Track condition evaluation for multi-vehicle performance prediction model based on convolutional neural network and gated recurrent unit[J]. Journal of Southwest Jiaotong University, 2023, 58(2): 322-331. [15] AHMED H O A, YU Y X, WANG Q H, et al. Intelligent fault diagnosis framework for modular multilevel converters in HVDC transmission[J]. Sensors, 2022, 22(1): 362.1-362.23. [16] 张敏,蔡振宇,包珊珊. 基于EEMD-Hilbert和FWA-SVM的滚动轴承故障诊断方法[J]. 西南交通大学学报,2019,54(3): 633-639,662. doi: 10.3969/j.issn.0258-2724.20170435ZHANG Min, CAI Zhenyu, BAO Shanshan. Fault diagnosis of rolling bearing based on EEMD-Hilbert and FWA-SVM[J]. Journal of Southwest Jiaotong University, 2019, 54(3): 633-639,662. doi: 10.3969/j.issn.0258-2724.20170435 [17] ZHOU D, ZHUANG X, ZUO H F, et al. Deep learning-based approach for civil aircraft hazard identification and prediction[J]. IEEE Access, 2020, 8: 103665-103683. doi: 10.1109/ACCESS.2020.2997371 [18] 由智超,高宏力,郭亮,等. 基于改进信息熵的直接刀具状态监测设备部署[J]. 西南交通大学学报,2024,59(1): 160-167. doi: 10.3969/j.issn.0258-2724.20220025YOU Zhichao, GAO Hongli, GUO Liang, et al. Equipment deployment of direct tool-condition monitoring based on improved information entropy[J]. Journal of Southwest Jiaotong University, 2024, 59(1): 160-167. doi: 10.3969/j.issn.0258-2724.20220025 [19] 夏英,刘敏. 基于时空注意力卷积神经网络的交通流量预测[J]. 西南交通大学学报,2023,58(2): 340-347.XIA Ying, LIU Min. Traffic flow prediction based on spatial-temporal attention convolutional neural network[J]. Journal of Southwest Jiaotong University, 2023, 58(2): 340-347. [20] 杨军,高志明,李金泰,等. 基于注意力机制的三维点云模型对应关系计算[J]. 西南交通大学学报,2024,59(5): 1184-1193. doi: 10.3969/j.issn.0258-2724.20220682YANG Jun, GAO Zhiming, LI Jintai, et al. Correspondence calculation of three-dimensional point cloud model based on attention mechanism[J]. Journal of Southwest Jiaotong University, 2024, 59(5): 1184-1193. doi: 10.3969/j.issn.0258-2724.20220682 [21] 王中豪,郭喜峰,杨星宇. 基于人工智能算法的隧道锚承载能力评价[J]. 西南交通大学学报,2021,56(3): 534-540.WANG Zhonghao, GUO Xifeng, YANG Xingyu. Bearing capacity evaluation of tunnel-type anchorage based on artificial intelligent algorithm[J]. Journal of Southwest Jiaotong University, 2021, 56(3): 534-540. [22] Teledyne Company. Gill dry-charged lead-acid aircraft battery service manual: Q01-1120[EB/OL]. (2021-03-16)[2023-04-15]. http://www.gillbatteries.com. [23] 陈维荣,李锦程,李奇. 燃料电池小型车SOC动态调节的功率跟随控制策略[J]. 西南交通大学学报,2021,56(1): 197-205.CHEN Weirong, LI Jincheng, LI Qi. Power following control strategy of SOC dynamic adjustment for small fuel-cell cars[J]. Journal of Southwest Jiaotong University, 2021, 56(1): 197-205. [24] 刘桓龙. 电液混合动力系统关键技术及能量管理研究综述[J]. 西南交通大学学报,2024,59(3): 600-614. doi: 10.3969/j.issn.0258-2724.20211011LIU Huanlong. Summary of research on key technologies and energy management of electro-hydraulic hybrid powertrain[J]. Journal of Southwest Jiaotong University, 2024, 59(3): 600-614. doi: 10.3969/j.issn.0258-2724.20211011 [25] ROSALES-PEREZ A, GARCIA S, HERRERA F. Handling imbalanced classification problems with support vector machines via evolutionary bilevel optimization[J]. IEEE Transactions on Cybernetics, 2023, 53(8): 4735-4747. doi: 10.1109/TCYB.2022.3163974 [26] HUANG W C, LIU H Y, ZHANG Y, et al. Railway dangerous goods transportation system risk identification: comparisons among SVM, PSO-SVM, GA-SVM and GS-SVM[J]. Applied Soft Computing, 2021, 109: 107541.1-107541.16. [27] 黄英,王拓,裴海俊,等. 基于运行工况和多分类支持向量机的柴油机共轨系统诊断方法[J]. 北京理工大学学报,2023,43(7): 719-725.HUANG Ying, WANG Tuo, PEI Haijun, et al. Diagnosis method of diesel common rail system based on operating conditions and multi-category support vector machine[J]. Transactions of Beijing Institute of Technology, 2023, 43(7): 719-725. [28] 张血琴,高润明,郭裕钧,等. 基于高光谱的复合绝缘子电晕老化状态评估[J]. 西南交通大学学报,2020,55(2): 442-449. doi: 10.3969/j.issn.0258-2724.20181062ZHANG Xueqin, GAO Runming, GUO Yujun, et al. Hyperspectral-based corona aging evaluation for composite insulators[J]. Journal of Southwest Jiaotong University, 2020, 55(2): 442-449. doi: 10.3969/j.issn.0258-2724.20181062 [29] WANG L M, QIAO S B, LU D, et al. State of health estimation of lithium-ion battery in wide temperature range via temperature-aging coupling mechanism analysis[J]. Journal of Energy Storage, 2022, 47: 103618.1-103618.10. -