专利一种飞机维修领域的知识图谱构建方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210697444.X (22)申请日 2022.06.22 (71)申请人成都量子矩阵科技有限公司地址 610000 四川省成都市高新区天府四街66号1栋22层6号 (72)发明人周焕来　陈泓秀　李金润　陈璐　黄婧　高源　江雪婷　 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/30(2020.01) G06F 40/279(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (54)发明名称一种飞机维修领域的知识图谱构建方法 (57)摘要一种飞机维修领域的知识图谱构建方法，本发明涉及知识图谱领域的命名实体识别，实体关系抽取等内容。本发明的目的是解决飞机维修领域知识图谱数据缺乏、完整度较低，且具有较大稀疏度的问题，构建出飞机维修领域较为完整的知识图谱。本发明以国内大型航空公司的机载传感器维修日志文本信息为基础，分析命名实体识别和关系抽取经典算法并进行优化改进：在实体抽取部分提出了改进型BERT_BiLSTM_CRF算法，改善了飞机维修领域实体边界模糊、数量多且复杂等问题；在关系抽取部分提出了双层BiLSTM_ Att算法，改善了上下文语义抽取困难的问题。经实验验证，这两种算法很大程度上改善了实体识别、关系抽取结果，最终能够构建出较为完备的的飞机维修领域知识图谱。权利要求书4页说明书5页附图5页 CN 115269860 A 2022.11.01 CN 115269860 A 1.一种基于BERT_FMG_B iLSTM_CRF和双层BiLSTM_Att的飞机维修领域知识图谱构建方法，包括步骤如下：步骤一：先对数据进行预处理，预分词(pre_tokenize)后输入嵌入层，利用改进BERT得到输入初始维修文本的向量表示。把特定的维修领域专属词典加入到BERT字典vocab.txt当中；输入一个句子s，用pre_ tokenize先进行一次分词操作，得到{w1,w2,....wl}；遍历各个wi，如果wi在词表中则保留，否则将wi用BERT自带的tokenize函数再分一次；将每个 wi的tokenize结果有序拼接起来，作为最后的tokenize结果{tok1,tok2,tok3,....tokn}。通过以上改进， BERT分词时将这些词语的信息加入分词结构中，在中文环境中，在将输入句子转换为词向量的时候，将会对句子中完整的词语进行随机遮挡，而不会是单纯随机遮挡该词语中的某个字。再通过字嵌入、段嵌入和位置嵌入输出词向量嵌入{E[CLS],E1,E2,E3,....En,E[SEP]}。将词向量嵌入输入双向 Transformer编码器训练后生成文本的向量表示。步骤二：用FMG方法计算对抗扰动Δx，将生成的对抗样本加入到训练数据集，提高模型的泛化能力。本发明在词嵌入层加入了对抗训练，对抗训练扰动添加的实现形式是在Embedding的参数矩阵开展的。假设输入的文本序列的emb edding为x，对抗训练的一般原理可以用最大最小化公式来体现，见式(1)：式(1)中， D代表训练集， y代表标签， θ是模型参数， L(x,y； θ )是单个样本的loss， Δx是对抗扰动， Ω是扰动空间，其目的在于选择合适的对抗扰动来使得单个样本的loss达到最大且最小化神经网络的模型参数θ 。具体步骤为：向输入x中加入对抗扰动Δx使L(x,y； θ )尽可能大，当每个样本都构造出其对抗样本Δx+x之后，再用(Δx+x,y)作为数据对去最小化loss来更新参数θ；式(1)中Δx 的目的在于使L(Δx+x,y； θ )增大，通过使梯度上升的方法增大L oss如式(2)： Δx＝▽xL(x,y； θ ) (2) 为了防止 Δx过大，对Δx进行标准化如式(3)：得到Δx之后将其带入式(1)进行优化，实现embed ding层的参数更新。步骤三：将更新过的飞机维修文本向量输入基线模型BiLSTM_CRF，完成特征提取和解码，完成基于BERT_FMG_Bi LSTM_CRF的实体抽取。 BiLSTM层是由前向长短记忆网络LSTM和后向LSTM组成的，实现文本在序列空间方面的关联分析。 BiLSTM_CRF模型能够将双向长短记忆网络BiLSTM和条件随机场CRF模型结合起来。设输入序列为X＝(x1,x2,...,xn)，输出预测标签序列为y＝(y1,y2,...,yn)。 BiLSTM的输出矩阵为P， Pij代表词xi映射到标签yj的非归一化概率。 P的维度为 n×k,k为标签的类别数。在双向长短记忆网络BiLSTM的隐藏层输出之后，进入条件随机场CRF作为其输入。设 CRF的转移矩阵为A， Aij代表标签 yi到yj的转移概率。 y0和yn是句子的开始和结束标签,则A的维度为(k+2) ×(k+2)。权　利　要　求　书 1/4 页 2 CN 115269860 A 2定义得分函数如式(4)：利用Softmax函数，为每一个正确的标签序列y定义一个概率值， Yx为所有可能预测的标签序列，具体概率值如式(5)：在训练过程中，最大化p(y|X)的对数似然: 将Loss损失函数定义为：在解码时，选择y*作为输出预测标签序列，通过动态规划算法求得y*为：步骤四：通过词向量Ww和位置特征向量Wp得到每个词的特征融合向量U，依次输入到双层BiLSTM并融合词语级、句子级注意力机制，得到表征输入句子的向量集合。重复该步骤以确定最优参数，完成基于双层BiLSTM_Att的关系抽取。 ①特征向量生成主要包括词向量和位置特征向量。其中词向量依靠中文分词工具 jieba生成，对输入的文本用jieba分词工具进行分词，并调用gensim包采用CBOW的方式对所有文本进行了词向量训练，生成关于机载传感器文本数据的词向量结果 Ww。为扩展输入的表示能力，引入位置特征向量Wp。每个位置之间的相对距离利用位置特征向量来进行区分。位置特征向量的具体表示是，给出一个句子S＝{w1,w2,...wn}表示句子序列，其中wn表示该句子的第n词。第s个词序列ws和第t个词序列wt距离第i个词序列wi的相对距离如式(x)： Ds＝i‑s (9) Dt＝i‑t (10) 通过词向量Ww和位置特征向量Wp得到每个词的特征融合向量U＝{u1,u2,...un}，依次输入到双层BiLSTM。 ②双层BiLSTM层由双层的两个子LSTM网络组成：设其中一个LSTM的输入为向量Xt＝ {X1,X2,...Xn}， LSTM的输出是向量ht。利用在t ‑1时刻LSTM网络隐藏层的输出ht‑1和t时刻 (当前时刻)的词向量xt，可以计算出遗忘门ft的值如式(1 1)： ft＝σ(Wf·[ht‑1,xt]+bf) (11)权　利　要　求　书 2/4 页 3 CN 115269860 A 3

专利 一种飞机维修领域的知识图谱构建方法

专利一种飞机维修领域的知识图谱构建方法