专利一种基于知识图谱的智能问答意图识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210252068.3 (22)申请日 2022.03.15 (71)申请人西南交通大学地址 610031 四川省成都市金牛区二环路北一段 (72)发明人张海柱　黎荣　王淑营　丁国富　江磊　马自立　 (74)专利代理机构成都海成知识产权代理事务所(普通合伙) 51357 专利代理师庞启成 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01)G06F 40/211(2020.01) G06F 40/242(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称一种基于知识图谱的智能问答意图识别方法 (57)摘要本发明涉及一种基于知识图谱的智能问答意图识别方法。其中，该方法包括：建立基于领域知识图谱的实体词典和本体词典，采用词典与命名体识别模型从用户的问句中抽取出相关实体；对用户的问句采用分类浅度判定和句法匹配深度判定相结合的判定模型判定问句类别，输出查询模板实现查询转换；最后将抽取的实体与查询模板组装输出标准化查询语句，识别最终意图。权利要求书5页说明书18页附图3页 CN 114579709 A 2022.06.03 CN 114579709 A 1.一种基于知识图谱的智能问答意图识别方法，其特征在于，包括如下步骤：步骤S1：基于词典与命名体识别模型相结合的实体抽取；具体包括如下步骤：步骤S11：构建词典；从高速列车领域知识图谱中导出所有实体形成实体词典；手工构建实体的相关同义词形成同义词词典；从高速列车领域知识图谱中导出所有本体标签形成本体标签词典；步骤S12：构建命名体识别模型以对实体进行初步抽取；通过对高速列车领域各阶段原始数据进行实体标注，将输出形成的标注数据输入到bert ‑bilstm‑crf命名体识别模型中进行模型训练，完成命名体识别模型的构建；模型构建完成后，将用户问句输入bert ‑ bilstm‑crf命名体识别模型中，通过字嵌入的方式依次经过bert层、双向循环神经网络层和crf层，得到用户问句的序列标注结果，并依据序列标注结果输出用户问句中所含的预期实体，完成实体的初步抽取；步骤S13：在得到实体抽取的初步结果之后，将抽取出来的预期实体代入到实体词典、同义词词典以及本体标签词典中进行字符串匹配，如果预期实体能够与词典中某一词语完全匹配，则将它作为最终实体输出，否则进行编辑距离和余弦相似度的计算，将同时满足编辑距离大于最小阈值以及余弦相似度最高的实体作为抽取的最终实体；步骤S2：基于问题浅度判定与问题深度判定结合的问题种类判定；具体包括如下步骤：步骤S21：问题浅度判定；首先对用户输入的用户问句进行分词以及停词，将用户问句转换为相关词的词序列，对词序列分别进行句型特征、用户特征以及词向量特征的提取以及融合，并将三个特征融合而成的向量作为用户问句的特征总向量输入到分类模型进行问题方向的预测，输出语义方向标签；步骤S22：问题深度判定；将步骤S21中所得到的语义方向标签与模板库进行匹配，当匹配到相应的模板库后提取出模板库内的问句模板；然后将用户问句作句法分析和词性标注，得到用户问句的词性句法分析树，将其与提取出来的问句模板进行相似度匹配，并将相似度最大的问句模板所对应的查询模板作为用户问句的查询模板，实现查询映射；步骤S3：组装查询语句；将步骤S1中抽取的实体与步骤S2中所对应的查询模板进行组装，将查询模板中的变量替换成实体，形成可以用于检索知识图谱的标准查询语句，标准查询语句即代表了用户的最终意图，后续将标准查询语句代入知识图谱进行检索便可以得到与用户问题相关的结果，实现高速列车领域用户意图的最终识别；在插入同类型实体时，结合高速列车结构树以及高速列车领域知识图谱结构，将同类型实体转换为其知识图谱类的本体标签，依据结构树的层级将本体标签层级低的实体替换查询语句中靠前的变量，实现同类型实体的插入；其中，结构树层级由高到低依次划分为系统、子系统、部件、零件。 2.如权利要求1所述的一种基于知识图谱的智能问答意图识别方法，其特征在于，所述将同时满足编辑距离大于最小阈值以及余弦相似度最高的实体作为抽取的最终实体，包括如下步骤：步骤S131：计算初步抽取的预期实体与词典中词语的编辑距离，其计算公式如下：权　利　要　求　书 1/5 页 2 CN 114579709 A 2式中： leva,b(i,j)代表预期实体与词典中词语的编辑距离； a是初步抽取的预期实体； b 是词典中所包含的词语； i代表预期实体a的字符串下标，从0开始； j代表词语b的字符串下标，从0开始； Max(i,j)代表i和j 之间的最大值， Min(i,j)代表i和j 之间的最小值； ai≠bj代表a的第i个字符与b的第j个字符不相同的情况；步骤S132：判断预期实体与词典内每一个词语各自的编辑距离是否大于最小阈值，若大于最小阈值，则进一步计算词典内大于所述最小阈值的词语与预期实体之间的余弦相似度，其计算公式如下：式中： similarity(W,V)是初步抽取的预期实体和词典中词语的余弦相似度； W是初步抽取的预期实体预训练词向量； V是词典中所包含的词语预训练词向量； Wi是初步抽取的预期实体的预训练词向量第i个参数； V i是词典中包含的词语的预训练词向量第i个参数； n是预训练词向量的维度；步骤S133：将词典中同时满足编辑距离大于最小阈值以及余弦相似度最高的词语作为抽取的最终实体，其计算公式如下：式中： S为自然语言问句； Owl(S)为问句中的最终实体； a为初步抽取的预期实体个数； c 为词典的总词数； d为余弦相似度计算的结果总数； Similarity(Si,Bj)为问句中第i个词与词典中第j个词的相似度； Xd代表第d组词的相似度运算结果； levSi,Bj(m,n)为问句中第i个词与词典中第j个词的编辑距离； Si代表问句中的i个词； len(Si)为问句中第i个词的长度； Bj代表词典中第j个词； len(Bj)为词典中第j个词的长度； [ ]为取整符号；！ Bj代表词典中第j个词非最终实体；步骤S134：将词典内与每一个预期实体匹配的词语作为实体抽取的最终实体的集合；如果某一预期实体的编辑距离或者相似度中任意一个未达标，则认为命名体识别模型错误的识别了预期实体，并将该预期实体剔除。 3.如权利要求2所述的一种基于知识图谱的智能问答意图识别方法，其特征在于，所述步骤S21具体包括：步骤S211：分词及停词；将用户问句输入jieba分词器进行分词处理；其中，将预先构建权　利　要　求　书 2/5 页 3 CN 114579709 A 3

专利 一种基于知识图谱的智能问答意图识别方法

专利一种基于知识图谱的智能问答意图识别方法