说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210697444.X (22)申请日 2022.06.22 (71)申请人 成都量子矩阵科技有限公司 地址 610000 四川省成 都市高新区天府四 街66号1栋22层6号 (72)发明人 周焕来 陈泓秀 李金润 陈璐  黄婧 高源 江雪婷  (51)Int.Cl. G06F 16/36(2019.01) G06F 40/30(2020.01) G06F 40/279(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (54)发明名称 一种飞机维修领域的知识图谱构建方法 (57)摘要 一种飞机维修领域的知识图谱构建方法, 本 发明涉及知识图谱领域的命名实体识别, 实体关 系抽取等内容。 本发明的目的是解决飞机维修领 域知识图谱数据缺乏、 完整度较低, 且具有较大 稀疏度的问题, 构建出飞机维修领域较为完整的 知识图谱。 本发 明以国内大型航空公司的机载传 感器维修日志文本信息为基础, 分析命名实体识 别和关系抽取经典算法并进行优化改进: 在实体 抽取部分提出了改进型BERT_BiLSTM_CRF算法, 改善了飞机维修领域实体边界模糊、 数量多且复 杂等问题; 在关系抽取部分提出了双层BiLSTM_ Att算法, 改善了上下文语义抽取困难的问题。 经 实验验证, 这两种算法很大程度上改善了实体识 别、 关系抽取结果, 最终能够构建出较为完备的 的飞机维修领域知识图谱。 权利要求书4页 说明书5页 附图5页 CN 115269860 A 2022.11.01 CN 115269860 A 1.一种基于BERT_FMG_B iLSTM_CRF和 双层BiLSTM_Att的飞机维修领域知识图谱构建方 法, 包括步骤如下: 步骤一: 先对数据进行预处理, 预分词(pre_tokenize)后输入嵌入层, 利用改进BERT得 到输入初始维修文本的向量表示。 把特定的维修领域专属词典加入到BERT字典vocab.txt当中; 输入一个句子s, 用pre_ tokenize先进行一次分词 操作, 得到{w1,w2,....wl}; 遍历各个wi, 如果wi在词表中则保留, 否则将wi用BERT自带的tokenize函数再分一次; 将每个 wi的tokenize结果有序拼接起来, 作 为最后的tokenize结果{tok1,tok2,tok3,....tokn}。 通过以上改进, BERT分词时将这些词 语的信息加入分词结构中, 在中文环 境中, 在将输入句子转换为词向量的时候, 将会对句子 中完整的词语进行随机遮挡, 而不会是单纯随机遮挡该词语中的某个字。 再通过字嵌入、 段 嵌入和位置嵌入输出词向量嵌入{E[CLS],E1,E2,E3,....En,E[SEP]}。 将词向量嵌入输入双向 Transformer编码器训练后生成文本的向量表示。 步骤二: 用FMG方法计算对抗扰动Δx, 将生成的对抗样本加入到训练数据集, 提高模型 的泛化能力。 本发明在词嵌入层加入了对抗训练, 对抗训练扰动添加的实现形式是在Embedding的 参数矩阵开展的。 假设输入的文本序列的emb edding为x, 对抗训练的一般原理可以用最大 最小化公式来体现, 见式(1): 式(1)中, D代表训练集, y代表标签, θ是模型参数, L(x,y; θ )是单个样本的loss, Δx是 对抗扰动, Ω是扰动空间, 其目的在于选择合适的对抗扰动来使得单个样本的loss达到最 大且最小化神经网络的模型参数θ 。 具体步骤为: 向输入x中加入对抗扰动Δx使L(x,y; θ )尽可能大, 当每个样本都构造出 其对抗样 本Δx+x之后, 再用(Δx+x,y)作为数据对去最小化loss来更新参数θ; 式(1)中Δx 的目的在于使L(Δx+x,y; θ )增大, 通过使梯度上升的方法增大L oss如式(2): Δx=▽xL(x,y; θ )                         (2) 为了防止 Δx过大, 对Δx进行 标准化如式(3): 得到Δx之后将其带入式(1)进行优化, 实现embed ding层的参数 更新。 步骤三: 将更新过的飞机维修文本向量输入基线模型BiLSTM_CRF, 完成特征提取和解 码, 完成基于BERT_FMG_Bi LSTM_CRF的实体抽取。 BiLSTM层 是由前向长短记忆网络LSTM和后向LSTM组成的, 实现文本在序列空间方面的 关联分析。 BiLSTM_CRF模型能够将双向长短记忆网络BiLSTM和条件随机场CRF模型结合起 来。 设输入序列为X=(x1,x2,...,xn), 输出预测标签序列为y=(y1,y2,...,yn)。 BiLSTM的输 出矩阵为P, Pij代表词xi映射到标签yj的非归一 化概率。 P的维度为 n×k,k为标签的类别数。 在双向长短记忆网络BiLSTM的隐藏层输出之后, 进入条件随机场CRF作为其输入。 设 CRF的转移矩阵为A, Aij代表标签 yi到yj的转移概率。 y0和yn是句子的开始和结束 标签,则A的 维度为(k+2) ×(k+2)。权 利 要 求 书 1/4 页 2 CN 115269860 A 2定义得分函数如式(4): 利用Softmax函数, 为每一个正确的标签序列y定义一个概率值, Yx为所有可能预测的标 签序列, 具体概 率值如式(5): 在训练过程中, 最大化p(y|X)的对数似然: 将Loss损失函数定义 为: 在解码时, 选择y*作为输出 预测标签序列, 通过动态规划算法求得y*为: 步骤四: 通过词向量Ww和位置特征向量Wp得到每个词的特征融合向量U, 依次输入到双 层BiLSTM并融合词语级、 句子级注 意力机制, 得到表征输入句子的向量集合。 重复该步骤以 确定最优参数, 完成基于双 层BiLSTM_Att的关系抽取。 ①特征向量生成主要包括词向量和位置特征向量。 其中词向量依靠中文分词工具 jieba生成, 对输入的文本用jieba分词 工具进行分词, 并调用gensim包采用CBOW的方式对 所有文本进行了词向量训练, 生成关于 机载传感器文本数据的词向量结果 Ww。 为扩展输入的表示能力, 引入位置 特征向量Wp。 每个位置之间的相对距离利用位置 特征 向量来进行区分。 位置特征向量的具体表 示是, 给出一个句子S={w1,w2,...wn}表示句子序 列, 其中wn表示该句子的第n词。 第s个词序列ws和第t个词序列wt距离第i个词序列wi的相对 距离如式(x): Ds=i‑s                           (9) Dt=i‑t                          (10) 通过词向量Ww和位置特征向量Wp得到每个词的特征融合向量U={u1,u2,...un}, 依次输 入到双层BiLSTM。 ②双层BiLSTM层由双层的两个子LSTM网络组成: 设其中一个LSTM的输入为向量Xt= {X1,X2,...Xn}, LSTM的输出是向量ht。 利用在t ‑1时刻LSTM网络隐藏层的输出ht‑1和t时刻 (当前时刻)的词向量xt, 可以计算出遗 忘门ft的值如式(1 1): ft=σ(Wf·[ht‑1,xt]+bf)                     (11)权 利 要 求 书 2/4 页 3 CN 115269860 A 3

.PDF文档 专利 一种飞机维修领域的知识图谱构建方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种飞机维修领域的知识图谱构建方法 第 1 页 专利 一种飞机维修领域的知识图谱构建方法 第 2 页 专利 一种飞机维修领域的知识图谱构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。