Knowledge Fusion Method of High-Speed Train Based on Knowledge Graph
-
摘要:
为解决高速列车各领域知识之间关联不明、难以检索和应用等问题,首先分析高速列车多源异构知识的组织形式,并结合高速列车产品结构树和阶段领域,构建高速列车领域知识图谱模式层和知识图谱;其次,通过双向编码变换器-双向长短期记忆网络-条件随机场(BERT-BILSTM-CRF)模型进行实体识别,得到阶段领域本体的映射;然后,将高速列车实体属性分为结构化和非结构化2类,并分别使用Levenshtein距离和连续词袋模型-双向长短期记忆网络(CBOW-BILSTM)模型计算相应属性的相似度,得到对齐实体对;最后,结合高速列车产品编码结构树进行映射融合,构建高速列车领域融合知识图谱. 应用本文方法对高速列车转向架进行实例验证的结果表明:在命名实体识别方面,基于BERT-BILSTM-CRF模型得到的实体识别准确率为91%;在实体对齐方面,采用Levenshtein 距离、CBOW-BILSTM模型计算实体相似度的准确率和召回率的调和平均数(F1值)分别为82%、83%.
Abstract:To address challenges of unclear correlation, intricate knowledge retrieval, and difficult knowledge application across diverse domains of high-speed trains, the organizational structure involving multi-source heterogeneous knowledge pertaining to high-speed trains was first analyzed, and a knowledge graph pattern layer and knowledge graph of the high-speed train domain was developed based on the product structure tree and stage domain of high-speed trains. Subsequently, the bidirectional encoder transformer-bidirectional long short-term memory network-conditional random field (BERT-BILSTM-CRF) model was employed for entity recognition, so as to establish the mapping of stage domain ontology. Then, the entity attributes of high-speed trains were categorized into structured and unstructured attributes. The Levenshtein distance and the continuous bag of words-bidirectional long short-term memory network (CBOW-BILSTM) model were utilized to calculate the similarity of corresponding attributes, resulting in aligned entity pairs. Ultimately, the knowledge fusion graph of high-speed train domain fusion was constructed by using the coding structure tree of high-speed train products for mapping and fusion. The proposed method was applied to high-speed train bogies for verification. The results reveal that in terms of named entity recognition, the entity recognition accuracy of the BERT-BILSTM-CRF model reaches 91%. In terms of entity alignment, the F1 values (the harmonic mean of accuracy and recall) of entity similarity calculated by the Levenshtein distance and the CBOW-BILSTM model are 82% and 83%, respectively.
-
Key words:
- high-speed train /
- knowledge graph /
- knowledge fusion /
- ontology mapping /
- entity alignment
-
高速列车的生命周期包括设计、制造、运营等多个阶段. 随着历史数据的积累,形成了大量可应用于产品研发各个阶段的经验知识,为设计等提供参考[1]. 然而,由于这些知识来源不同、领域各异且所处阶段不同,导致知识数据形式复杂,获取经验知识变得困难. 各阶段之间的知识关联不明确,难以将不同阶段的知识融合,从而获取更丰富的经验知识. 随着工业4.0和智能制造2035规划的发展,如何有效组织和表达知识,以促进经验知识的获取,并使知识关联更加明确,已成为亟待解决的问题.
知识图谱的概念由谷歌于2012年提出,是一种以本体来规范、集成信息的特殊数据库. 在知识图谱中,知识以三元组〈实体,关系,实体〉或〈实体,属性,属性值〉的形式来表示和存储,其本质是一种语义知识库,用于表示实体之间的语义关系[2]. 通过这种形式,实体与实体间相互关联,可以构建出一张知识网络来支持基于语义的检索,从而使得知识之间的关联关系明确,知识发现更加容易. 知识图谱按逻辑结构分为模式层和数据层. 其中,模式层即本体层,用于描述特定领域中的抽象概念、属性、公理;数据层即实例层,用于描述具体的实体对象、实体间的关系,包含大量的事实和数据.
在高速列车知识图谱的构建过程中,根据知识领域不同,构建的知识图谱侧重不同,使得多个知识图谱之间存在异构冗余的问题. 知识图谱融合用于解决这一问题[3],目前,针对知识图谱融合主要有2个方面[4]:一是本体匹配,用于解决本体异构问题;二是实体对齐,用于解决知识图谱数据层的数据异构和冗余问题.
基于以上问题,本文结合高速列车产品编码结构树的特点,提出一种基于知识图谱的高速列车知识融合方法.
1. 基于知识图谱的高速列车知识融合方法
本文方法整体框架如图1所示. 图中,BERT-BILSTM-CRF为双向编码变换器-双向长短期记忆网络-条件随机场模型. 首先,获取高速列车多源异构知识;然后,构建高速列车知识模式层及知识图谱,形成高速列车阶段领域知识图谱;最后,经过阶段领域知识图谱融合、生命周期各阶段实例的映射融合步骤,实现基于知识图谱的高速列车知识融合. 其中,阶段领域知识图谱融合涵盖产品设计、制造、运维各阶段的领域知识图谱的融合;而生命周期各阶段实例的映射融合则关注于对各阶段结构树实例的映射融合.
1.1 高速列车知识模式层及知识图谱构建
1.1.1 产品周期阶段和结构树模型
产品全生命周期可分为设计、制造、运维3个阶段. 在设计过程中,主要涉及需求数据、几何数据、属性参数数据等. 这些数据往往会对应具体的设计实例,而具体的设计实例则通过一个元模型进行实例化. 元模型数据不具有特定的参数,包括产品族模型数据、设计规则、标准类数据以及模板类数据等. 元模型与设计实例之间存在一对多的关系. 在生产制造阶段,根据设计实例进行生产制造会得到多个对应的制造实例,用于具体装配. 在运维阶段,各种故障、维修数据都对应于具体的装配实例产品. 装配实例与设计实例之间存在多对一的关系. 通过对上述数据来源特点的分析,为加快数据索引,本文针对高速列车生命周期不同阶段的特点,将结构树分为3类(产品族主结构树、产品设计结构树和产品实例结构树),如图2所示,并进行各类数据的映射. 各类数据特点和来源见表1.
表 1 结构树划分Table 1. Partition of structure trees结构树 知识来源 特点分析 产品族主结构树 产品族模型数据、标准类数据、模板类数据 具有快速重用的特点,不涉及具体的参数值,是设计实例的模板结构,具有元节点编码作为唯一标识 产品设计结构树 需求数据、几何数据、设计规则、物理属性数据、工艺数据 与设计产出相对应,是按需求设计实例化的结果,具有模块编码作为唯一标识 产品实例结构树 工艺质量数据、故障数据、制造成本数据 设计实例实物化的结果,与设计实例具有多对一的关系,制造码为唯一标识 1.1.2 基于改进七步法的本体模式构建
知识图谱本体模式构建方法有2种:自顶向下、自底向上. 其中,自底向上的方法多应用于通用知识图谱构建流程. 本文采用自顶向下的方式构建高速列车领域本体,在七步法[5]的基础上结合知识来源、所处的领域阶段以及对应的领域结构树进行本体模式的构建(图3),并根据领域本体模式获取知识并形成知识图谱.
1.2 高速列车知识模式层及知识图谱构建
阶段领域知识图谱融合是针对产品设计、制造、运维各阶段的领域知识图谱进行整合,在生命周期内,每个阶段都会形成多个异构的知识图谱. 比如在运维阶段会产生故障知识图谱和维修知识图谱. 其中,故障知识图谱以零部件的故障为核心,记录故障产生的原因、位置等信息;而在维修知识图谱中,则以零部件的维修方法为核心,针对不同零部件的不同故障,记录相应故障维修方法等. 阶段领域知识图谱融合分为2步:首先是基于实例命名实体识别进行本体映射,建立各本体之间的映射关系;然后,基于属性相似度计算的方法,进行实体对齐.
1.2.1 基于实例命名实体识别的本体映射
将阶段结构树中的实体作为各阶段知识图谱的对齐实体,进行BERT-BILSTM-CRF模型[6-7]命名实体识别模型的训练;然后,利用训练好的实体识别模型对阶段领域知识图谱中的实体进行识别,确定其在结构树本体中的概念位置,进而建立本体概念的映射关系.
1) 概念映射
概念映射即本体映射,是通过建立本体间的映射规则来达到本体的互操作[8]. 本文的概念映射关系主要有等价和包含2种关系. 具体描述为:给定知识图谱本体O1(m1,m2,⋯,mi)、实体E1(e1,e2,⋯,er)以及相应的结构树本体O2(n1,n2,⋯,nj). 其中:mi为本体O1中的第i个概念,er为本体O1中概念下的第r个实体集,nj为结构树本体O2中的第j个概念,对齐的结果为一个映射f:mi→nj. 映射集合中的mi→nj表示O1中的概念mi与O2中的概念nj具有等价或者包含关系. 等价或包含关系判定如下:对于概念mi下的实体集er和映射f:mi→nj,如果er⊆mi并且er⊆nj,则mi和nj等价;如果ei⊆mi并且ei∈nj,则nj∈mi.
2) 建立映射关系
映射关系的建立过程如图4所示,输入O1中mi的实体集E1,将实体输出到命名实体识别模型中进行命名实体识别,如果识别出有O2中的概念nj,则输出映射f:mi→nj,如输入实体“转向架”,通过命名实体识别之后,输出结果为映射f:结构→系统,定义命名实体识别结果集N(n1,n2,⋯,nj)和输出结果集F{(mi,nj),mi⊆O1,nj⊆O2}.
1.2.2 基于属性相似度计算的实体对齐
实体对齐[9-10]是高速列车知识图谱融合的关键一步,高速列车领域实体中蕴含丰富的属性信息(表2). 针对属性值的特点,高速列车领域实体的属性可以分为2类:数值型的结构化属性、文本型的非结构化属性[11]. 本文结合高速列车实体的多种属性信息计算实体的属性相似度,获取高速列车不同领域知识图谱中的可对齐实体.
表 2 高速列车实体属性Table 2. Entity attributes of high-speed train数值型(结构化属性) 文本型(非结构化属性) 运营速度、转向架最大宽度、转向架最大高度、车轮直径(新轮)、车轮直径(半磨耗)、齿轮中心距、轴重 转向架型式、车轮型式、车轮踏面型式、车轴型式、牵引电机型式、牵引拉杆材料、齿轮箱材料 针对不同的属性类型和结构,本文采用不同的方法计算属性相似度,如图5所示. 图中:a∈E1,b∈E2,K为相似度阈值. 首先,对实体属性及属性值进行规范化;然后,进行实体聚类,经过结构化属性相似度计算和非结构化属性相似度计算得到实体的综合相似度;最后,通过相似度阈值来判断可对齐实体.
1) 属性规范化和实体聚类
① 属性规范化
采用人工方式进行属性处理,包括属性名称、属性值以及属性值单位的统一. 对于数值型,比如属性值的单位,有些是克,有些是g,将其统一为g;对文本型相同属性的名称进行统一,确保一致性,如“环境最高温度”和“最高环境温度”,将其统一为“最高环境温度”.
② 构造单位和约束匹配模板
将数值型属性定义为结构化属性,这类属性具有单位和约束条件,通过构造单位和约束的匹配模板库(见表3),对结构化属性进行匹配.
表 3 单位和约束匹配模板Table 3. Matching template of unit and constraint约束 单位 不大于 mm 不大于 % 不得超过 L ± g ③ 实体聚类
经过本体映射,将实体按照本体中的概念标签进行分类,相同概念标签下的实体进行聚类,通过读取映射关系获取对应概念标签下的候选聚类实体. 然后,通过相似度计算实现实体对齐.
对于图谱G1(A1,A2,⋯,Ai)中第i个概念Ai下的实体集E1(e1,e2,⋯,er)和图谱G2(B1,B2,⋯,Bj)中第j个概念Bj下的实体集E2(e1,e2,⋯,ek),如果概念Ai=Bj,则E1和E2为2个需对齐的聚类实体集.
2) 结构化属性相似度计算
通过模板的正则匹配,能够获取实体的结构化属性. 具有相同属性或者相同属性值的实体,其表达形式和表述规范具有一定的相似度. 因此,可以采用最小编辑距离计算相似度. 对于实体a,其x个结构化属性为Pa={Pa1,Pa2,⋯,Pax},对应的属性值为Va={Va1,Va2,⋯,Vax} ;对于实体b,其y个结构化属性为Pb={Pb1,Pb2,⋯,Pby} ,对应的属性值为Vb={Vb1,Vb2,⋯,Vby}. 则实体a、b的公共属性Cp=Pa∩Pb 的相似度计算如式(1)所示.
SsimC(Pax,Pby)=1−Ledit(Vax,Vby)max{l(Vax),l(Vby)}, (1) 式中:l(•) 为属性值的长度,Ledit(Vax,Vby) 为Vax和Vby之间的最小编辑距离.
由于在进行结构化属性相似度计算时,不同属性的重要程度不同. 例如,对于高速列车转向架的性能属性而言,与“额定载客数”相比,“运营速度”的设置更为重要. 因此,针对不同的结构化属性,需要设定不同权值. 本文中,这些权值由相关专业领域的工程师评估,并经过归一化处理. 总的结构化属性相似度为
SsimZ(a,b)=t∑v=1wvSsimC(Pax,Pby)t, (2) 式中:wv为第v个结构化属性的权值,t为实体a和b的公共属性数.
3) 语义相似度计算
针对本文实体中的非结构化属性,计算其语义相似度. 首先,通过相应属性的描述文本和领域词典进行词嵌入构造文本属性的语义特征向量;然后,通过计算语义特征向量的余弦相似度[12]获取非结构化属性的相似度. 如图6所示,将文本属性的描述文本作为训练语料库,使用结巴分词[13]和百度停用词表对文本进行预处理,文本经过随机初始化构建词向量、连续词袋(CBOW)模型[14]和双向长短时记忆(BILSTM)模型[15]训练,所得词向量分别为 {\boldsymbol{X}}=({X}_{1}, {X}_{2},{\cdots},{X}_{n})、 {\boldsymbol{Y}}=({Y}_{1},{Y}_{2},{\cdots},{Y}_{n})、{\boldsymbol{Z}}=({Z}_{1},{Z}_{2},{\cdots},{Z}_{n}) ,从而构造出文本属性的语义特征向量.
获取每个待对齐实体对的非结构化属性特征向量,分别将实体 a 的每个非结构化属性特征向量{{\boldsymbol{V}}_{{a}}}与实体 b 的每个非结构化属性特征向量{{\boldsymbol{V}}_{{b}}}进行余弦相似度求解,计算如式(3)所示.
S _{{\mathrm{sim}}}({{\boldsymbol{V}}_{{a}}}{\boldsymbol{,}}{{\boldsymbol{V}}_{{b}}}) = \frac{{{{\boldsymbol{V}}_{{{{a}}}}} {\text{•}} {{\boldsymbol{V}}_{{{{b}}}}}}}{{\left| {{{\boldsymbol{V}}_{{{{a}}}}}} \right| \left| {{{\boldsymbol{V}}_{{{{b}}}}}} \right|}}. (3) 设置相似度阈值为K,用于选取相似度最高的属性对. 若相似度大于阈值K,则归为相似属性,记录相似度,循环比较得到T个相似度最高的相似属性对;然后,通过式(4)求取实体a与实体b的非结构化属性相似度.
S_{{\mathrm{simF}}}(a,b) = \frac{{\displaystyle\sum\limits {S _{{\mathrm{sim}}}({{\boldsymbol{V}}_{{a}}}{\boldsymbol{,}}{{\boldsymbol{V}}_{{b}}})} }}{T}. (4) 4) 综合实体相似度计算
将结构化属性相似度与非结构化属性相似度进行权值归一得到实体a和b的综合相似度,如式(5)所示.
S _{{\mathrm{simE}}}(a,b) = {W_1} S _{{\mathrm{simZ}}}(a,b) + {W_2} S _{\mathrm{simF}}(a,b), (5) 式中:{W_1}、{W_2}分别为结构化属性、非结构化属性相似度的权值.
针对领域图谱概念A中的每个实体a,通过S _{\mathrm{simE}}(a,b)值对结构树图谱中映射概念B中的实体b进行降序排序,生成最优候选序列,选取相似度最高且大于设定阈值K的实体b作为可对齐实体.
1.3 生命周期各阶段结构树实例的映射融合
高速列车的产品族主结构树、产品设计结构树和产品实例结构树各自具有编码属性. 产品族主结构树拥有元节点编码唯一标识;产品设计结构树同时拥有元节点编码和模块编码,模块编码为唯一标识;产品实例结构树同时拥有元节点编码、模块编码和制造码,制造码为唯一标识,三者之间的映射关系为一对多,即元节点编码包含多个模块编码,模块编码包含多个制造码.
1.3.1 基于产品编码结构树的实体映射融合
阶段领域知识图谱融合后,得到各生命周期阶段的融合知识图谱. 然而,各生命周期阶段的知识图谱尚未关联,导致无法实现实体关联知识的获取与应用. 在结构树本体中,产品族主结构树的元节点编码、产品设计结构树的模块编码以及产品实例结构树的制造码之间存在映射关系,两两之间是一对多的关系. 因此,在融合过程中,仅进行对齐融合是不够的,需要建立三阶段实体之间的关联关系,并将其定义为“关联”. 通过计算实体之间的相似度来构建多个实体之间的关联关系,并将这些映射关系存储到关系数据库表中. 具体流程如图7所示.
实体映射融合表现为建立各阶段实体之间的映射关系,给定主结构树图谱{M_1}({p_1},{p_2},\cdots,{p_d})、产品设计结构树图谱{M_2}({q_1},{q_2},\cdots,{q_h})和产品实例结构树图谱{M_3}({l_1},{l_2},\cdots,{l_f}). 其中,{p_d}为{M_1}中第d个概念下的实体集,{q_h}为{M_2}中第h个概念下的实体集,{l_f}为{M_3}中第f个概念下的实体集. 将各阶段的实体进行两两对齐,对齐结果为一个映射f:{p_d} \to {q_h}或者f:{p_d} \to {l_f}或者f:{q_h} \to {l_f}. 对实体的属性进行规范化,并根据映射关系对概念标签下的实体进行聚类,通过各聚类实体间的相似度计算,获取对应的对齐实体对,建立实体之间的映射关系,关系类型为“关联”,并将映射结果存储在关系数据库表中.
2. 实例验证
首先,基于高速列车转向架各阶段实例数据,构建高速列车转向架各领域知识图谱;然后,通过实验对比得到属性权值和相似度阈值;最后,获取高速列车转向架各阶段领域知识图谱的融合知识图谱.
2.1 高速列车转向架知识图谱构建
2.1.1 基于产品编码结构树的实体映射融合知识图谱模式层构建
知识图谱模式层采用改进七步法进行构建,并使用本体构建工具protégé 进行形式化表示,构建的高速列车转向架故障领域模式层如图8所示.
2.1.2 阶段领域知识图谱构建
在构建完成知识图谱模式层之后,以本体模式为指导,获取实体和关系,构建出各领域的知识图谱. 图9为高速列车转向架运维域知识图谱部分示例.
2.2 实验数据集描述
基于高速列车转向架运维阶段的实例数据,通过数据统计及人工标注的方法形成一定数量的测试集,数据量构成如表4所示. 其中:结构化属性最大值为54个,最小值为3个;非结构化属性最大值为32个,最小值为8个. 按照1∶10的比例随机抽取正样本对(对齐实体)和负样本对(非对齐实体),以准确率、召回率、准确率和召回率的调和平均数(F1值)作为评价指标.
表 4 数据集构成Table 4. Composition of dataset数据集 实体数 关系数 实体数 可对齐 不可对齐 故障数据 13258 41152 8925 4333 维修数据 10506 35282 8925 1581 2.3 实验设置
本文实验分为2个部分. 一部分为命名实体识别模型的训练. 采用BERT-BILSTM-CRF模型训练得出高速列车领域命名实体识别模型,输入为高速列车故障文本数据和百度百科词条数据,文本数据
5125 条,经过整理之后得到的最终数据为3715 条. 进行实体标注,抽取实体. 实验基于TensorFlow框架,将BILSTM层的节点数设置为100个,优化器使用Adam算法,实验参数设置如表5所示. 另一部分为实体对齐实验. 首先,测试结构化和非结构化属性权重比值,得到最佳的权重比值;然后,通过实验得出最佳的相似度阈值.表 5 BERT-BILSTM-CRF模型参数Table 5. Parameters of BERT-BILSTM-CRF model参数名 参数值 批大小/批 4 学习率 0.001 丢失率 0.5 训练轮次/轮 10 字向量维度/维 768 序列长度/个 128 2.3.1 属性权值计算
在实体对齐相似度计算过程中,对实体的结构化属性和非结构化属性进行权值归一化. 其中,结构化属性和非结构化属性的权值比为W1∶W2,经过测试,计算实体综合相似度,并以平均综合相似度作为评价指标,结果见图10. 由图可知,权值比为6∶4时效果最佳. 权值确定后,代入式(5)计算可得实体的综合相似度.
2.3.2 相似度阈值计算
在获取对齐实体的过程中,相似度阈值K对于候选实体的获取有直接影响. 本文将综合相似度大于K的实体认定为可对齐实体,小于K的认定为不可对齐实体,K的取值会直接影响融合结果的准确率、召回率以及F1值. 如图11所示,所取的相似度阈值K越大,实验结果的准确率越高,召回率越低,反之,所取的相似度阈值K越小,实验结果的准确率越低,召回率越高. F1值是评价准确率和召回率的综合指标,因此K的取值应根据 F1 值进行选取. 由图11可知,当K取0.70~0.80时,F1 值达到峰值. 实验中,取K = 0.75.
2.4 实验结果
为获取更加准确的实体识别结果,使得本体层的融合更加准确,设置表6所示对比实验. 可以看出,由于双向编码变换器(BERT)语言模型能够更好地表达词的语义信息,结合条件随机场(CRF)层获取的最优标注序列,使得本文使用的模型具有更准确的识别结果.
表 6 实体识别对比实验Table 6. Comparative experiment of entity recognition% 实验方法 准确率 召回率 F1 值 Word2vec-BILSTM 86 83 84 Word2vec-BILSTM-CRF 90 87 88 BERT-BILSTM 89 86 87 BERT-BILSTM-CRF 91 88 89 为获得更为准确的相似度计算结果,在本文构建的数据集上对不同距离公式和相似度计算方法结果进行比较,如表7所示. 可以看出,在进行字符串相似度计算[16]时,相对于Levenshtein距离(编辑距离) [17],Jaro-Winkler距离(杰罗•温克勒距离)更加突出前缀相同的重要性[18]. 然而,在本身已具有一定结构化的属性上,这种优势并不那么明显. 文本相似度计算通常采用语义相似度进行,而CBOW模型侧重于静态的语义表示,无法考虑文本的上下文信息. 因此,本文选择Levenshtein距离来计算结构化属性的相似度,同时采用CBOW-BILSTM模型来构建文本词向量特征,以计算非结构化属性的相似度.
表 7 相似度计算对比实验Table 7. Comparative experiment of similarity calculation相似度计算方法 F1 值/% Levenshtein 距离 82 Jaro-Winkler 距离 79 语义相似度(CBOW) 77 语义相似度(BILSTM) 81 语义相似度(CBOW-BILSTM) 83 将本文构建的知识图谱进行本体层的融合和实例数据层的融合,部分融合结果如图12、13所示.
3. 结 论
本文针对高速列车知识图谱融合,结合高速列车产品结构树,提出一种基于知识图谱的高速列车知识融合方法. 通过实例验证,本方法能够对高速列车多阶段知识图谱进行有效融合. 知识融合对知识图谱构建有着非常重要的意义,后续的研究将进一步对语义特征向量的表示进行研究并结合深度学习方法进一步对实体对齐方法进行研究,提高知识融合的准确率和效率.
-
表 1 结构树划分
Table 1. Partition of structure trees
结构树 知识来源 特点分析 产品族主结构树 产品族模型数据、标准类数据、模板类数据 具有快速重用的特点,不涉及具体的参数值,是设计实例的模板结构,具有元节点编码作为唯一标识 产品设计结构树 需求数据、几何数据、设计规则、物理属性数据、工艺数据 与设计产出相对应,是按需求设计实例化的结果,具有模块编码作为唯一标识 产品实例结构树 工艺质量数据、故障数据、制造成本数据 设计实例实物化的结果,与设计实例具有多对一的关系,制造码为唯一标识 表 2 高速列车实体属性
Table 2. Entity attributes of high-speed train
数值型(结构化属性) 文本型(非结构化属性) 运营速度、转向架最大宽度、转向架最大高度、车轮直径(新轮)、车轮直径(半磨耗)、齿轮中心距、轴重 转向架型式、车轮型式、车轮踏面型式、车轴型式、牵引电机型式、牵引拉杆材料、齿轮箱材料 表 3 单位和约束匹配模板
Table 3. Matching template of unit and constraint
约束 单位 不大于 mm 不大于 % 不得超过 L ± g 表 4 数据集构成
Table 4. Composition of dataset
数据集 实体数 关系数 实体数 可对齐 不可对齐 故障数据 13258 41152 8925 4333 维修数据 10506 35282 8925 1581 表 5 BERT-BILSTM-CRF模型参数
Table 5. Parameters of BERT-BILSTM-CRF model
参数名 参数值 批大小/批 4 学习率 0.001 丢失率 0.5 训练轮次/轮 10 字向量维度/维 768 序列长度/个 128 表 6 实体识别对比实验
Table 6. Comparative experiment of entity recognition
% 实验方法 准确率 召回率 F1 值 Word2vec-BILSTM 86 83 84 Word2vec-BILSTM-CRF 90 87 88 BERT-BILSTM 89 86 87 BERT-BILSTM-CRF 91 88 89 表 7 相似度计算对比实验
Table 7. Comparative experiment of similarity calculation
相似度计算方法 F1 值/% Levenshtein 距离 82 Jaro-Winkler 距离 79 语义相似度(CBOW) 77 语义相似度(BILSTM) 81 语义相似度(CBOW-BILSTM) 83 -
[1] 丁国富,姜杰,张海柱,等. 我国高速列车数字化研发的进展及挑战[J]. 西南交通大学学报,2016,51(2): 251-263. doi: 10.3969/j.issn.0258-2724.2016.02.005DING Guofu, JIANG Jie, ZHANG Haizhu, et al. Development and challenge of digital design of high-speed trains in China[J]. Journal of Southwest Jiaotong University, 2016, 51(2): 251-263. doi: 10.3969/j.issn.0258-2724.2016.02.005 [2] 刘峤,李杨,段宏,等. 知识图谱构建技术综述[J]. 计算机研究与发展,2016,53(3): 582-600.LIU Qiao, LI Yang, DUAN Hong, et al. Knowledge graph construction techniques[J]. Journal of Computer Research and Development, 2016, 53(3): 582-600. [3] RUTA M, SCIOSCIA F, GRAMEGNA F, et al. A knowledge fusion approach for context awareness in vehicular networks[J]. IEEE Internet of Things Journal, 2018, 5(4): 2407-2419. doi: 10.1109/JIOT.2018.2815009 [4] ZHAO X J, JIA Y, LI A P, et al. Multi-source knowledge fusion: a survey[C]//2019 IEEE Fourth International Conference on Data Science in Cyberspace (DSC). Hangzhou: IEEE, 2019: 119-127. [5] ABDELLATIF M, FARHAN M S, SHEHATA N S. Overcoming business process reengineering obstacles using ontology-based knowledge map methodology[J]. Future Computing and Informatics Journal, 2018, 3(1): 7-28. doi: 10.1016/j.fcij.2017.10.006 [6] KAUSHIK N, CHATTERJEE N. Automatic relationship extraction from agricultural text for ontology construction[J]. Information Processing in Agriculture, 2018, 5(1): 60-73. doi: 10.1016/j.inpa.2017.11.003 [7] DAI Z J, WANG X T, NI P, et al. Named entity recognition using BERT BiLSTM CRF for Chinese electronic health records[C]//2019 12th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI). Suzhou: IEEE, 2019: 1-5. [8] JIANG L, SHI J Y, WANG C Y. Multi-ontology fusion and rule development to facilitate automated code compliance checking using BIM and rule-based reasoning[J]. Advanced Engineering Informatics, 2022, 51: 101449.1-101449.15. [9] 王雪鹏,刘康,何世柱,等. 基于网络语义标签的多源知识库实体对齐算法[J]. 计算机学报,2017,40(3): 701-711. doi: 10.11897/SP.J.1016.2017.00701WANG Xuepeng, LIU Kang, HE Shizhu, et al. Multi-source knowledge bases entity alignment by leveraging semantic tags[J]. Chinese Journal of Computers, 2017, 40(3): 701-711. doi: 10.11897/SP.J.1016.2017.00701 [10] TRISEDYA B D, QI J Z, ZHANG R. Entity alignment between knowledge graphs using attribute embeddings[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33(1): 297-304. doi: 10.1609/aaai.v33i01.3301297 [11] ZHU Q, WEI H, SISMAN B, et al. Collective multi-type entity alignment between knowledge graphs[C]//Proceedings of the Web Conference 2020. Taipei: ACM, 2020: 2241–2252. [12] ZAD S, HEIDARI M, HAJIBABAEE P, et al. A survey of deep learning methods on semantic similarity and sentence modeling[C]//2021 IEEE 12th Annual Information Technology, Electronics and Mobile Communication Conference (IEMCON). Vancouver: IEEE, 2021: 466-472. [13] TSENG C W, CHOU J J, TSAI Y C. Text mining analysis of teaching evaluation questionnaires for the selection of outstanding teaching faculty members[J]. IEEE Access, 2018, 6: 72870-72879. doi: 10.1109/ACCESS.2018.2878478 [14] ZHANG W T, JIANG S H, ZHAO S, et al. A BERT-BiLSTM-CRF model for Chinese electronic medical records named entity recognition[C]//2019 12th International Conference on Intelligent Computation Technology and Automation (ICICTA). Xiangtan: IEEE, 2019: 166-169. [15] ZHANG M Y, WANG J, ZHANG X J. Using a pre-trained language model for medical named entity extraction in Chinese clinic text[C]//2020 IEEE 10th International Conference on Electronics Information and Emergency Communication (ICEIEC). Beijing: IEEE, 2020: 312-317. [16] NGUYEN H T, DUONG P H, CAMBRIA E. Learning short-text semantic similarity with word embeddings and external knowledge sources[J]. Knowledge-Based Systems, 2019, 182: 104842.1-104842.9. [17] PUTERA UTAMA SIAHAAN A, ARYZA S, HARIYANTO E, et al. Combination of Levenshtein distance and Rabin-Karp to improve the accuracy of document equivalence level[J]. International Journal of Engineering & Technology, 2018, 7: 17-21. [18] MANAF K, PITARA S, SUBAEKI B, et al. Comparison of carp Rabin algorithm and jaro-winkler distance to determine the equality of sunda languages[C]//2019 IEEE 13th International Conference on Telecommunication Systems, Services, and Applications (TSSA). Bali: IEEE, 2019: 77-81. -