说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210252068.3 (22)申请日 2022.03.15 (71)申请人 西南交通大 学 地址 610031 四川省成 都市金牛区二环路 北一段 (72)发明人 张海柱 黎荣 王淑营 丁国富  江磊 马自立  (74)专利代理 机构 成都海成知识产权代理事务 所(普通合伙) 51357 专利代理师 庞启成 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01)G06F 40/211(2020.01) G06F 40/242(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种基于知识图谱的智能问答意图识别方 法 (57)摘要 本发明涉及一种基于知识图谱的智能问答 意图识别方法。 其中, 该方法包括: 建立基于 领域 知识图谱的实体词典和本体词典, 采用词典与命 名体识别模 型从用户的问句中抽取出相关实体; 对用户的问句采用分类浅度判定和句法匹配深 度判定相结合的判定模型判定问句类别, 输出查 询模板实现查询转换; 最后将抽取的实体与查询 模板组装输出标准 化查询语句, 识别最终意图。 权利要求书5页 说明书18页 附图3页 CN 114579709 A 2022.06.03 CN 114579709 A 1.一种基于知识图谱的智能问答 意图识别方法, 其特 征在于, 包括如下步骤: 步骤S1: 基于词典与命名体识别模型相结合的实体抽取; 具体包括如下步骤: 步骤S11: 构建词典; 从高速列车领域知识图谱中导出所有实体形成实体词典; 手工构 建实体的相关同义词形成同义词词典; 从高速列车领域知识图谱中导出所有本体标签形成 本体标签词典; 步骤S12: 构建命名体识别模型以对实体进行初步抽取; 通过对高速列车领域各阶段原 始数据进行实体标注, 将输出形成的标注数据输入到bert ‑bilstm‑crf命名体识别模型中 进行模型训练, 完成命名体识别模型的构建; 模型构建完成后, 将用户问句输入bert ‑ bilstm‑crf命名体识别模型中, 通过字嵌入的方式依次经过bert层、 双向循环神经网络层 和crf层, 得到用户问句的序列标注结果, 并依据序列标注结果输出用户问句中所含的预期 实体, 完成实体的初步抽取; 步骤S13: 在得到实体抽取的初步结果之后, 将抽取出来的预期实体代入到实体词典、 同义词词典以及本体标签词典中进行字符串匹配, 如果预期实体能够与词典中某一词语完 全匹配, 则将它 作为最终实体输出, 否则进 行编辑距离和余弦相似度的计算, 将同时满足编 辑距离大于最小阈值以及余弦相似度最高的实体作为抽取的最终 实体; 步骤S2: 基于问题浅度判定与问题深度判定结合的问题种类判定; 具体包括如下步骤: 步骤S21: 问题浅度判定; 首先对用户输入的用户问句进行分词以及停词, 将用户问句 转换为相关词的词序列, 对词序列分别进行句型特征、 用户特征以及词向量特征 的提取以 及融合, 并将三个特征融合而成的向量作为用户问句的特征总向量输入到 分类模型进 行问 题方向的预测, 输出语义方向标签; 步骤S22: 问题深度判定; 将步骤S21中所得到的语义方向标签与模板库进行匹配, 当匹 配到相应的模板库后提取出模板库内的问句模板; 然后将用户问句作句法分析和词性标 注, 得到用户问句的词性句法分析树, 将其与提取出来的问句模板进 行相似度匹配, 并将相 似度最大的问句模板所对应的查询模板作为用户问句的查询模板, 实现查询映射; 步骤S3: 组装查询语句; 将步骤S1中抽取的实体与步骤S2中所对应的查询模板进行组 装, 将查询模板中的变量替换成实体, 形成可以用于检索知识图谱的标准查询语句, 标准查 询语句即代表了用户的最 终意图, 后续将标准查询语句代入知识图谱进 行检索便可以得到 与用户问题相关的结果, 实现高速列车领域用户意图的最 终识别; 在 插入同类型实体时, 结 合高速列车结构树以及高速列车领域知识图谱结构, 将同类型实体转换为其知识图谱类的 本体标签, 依据结构树的层级将本体标签层级低的实体替换查询语句中靠前 的变量, 实现 同类型实体的插 入; 其中, 结构树层级由高到低依次划分为系统、 子系统、 部件、 零件。 2.如权利要求1所述的一种基于知识图谱的智能问答意图识别方法, 其特征在于, 所述 将同时满足编辑距离大于最小阈值以及余弦相似度最高的实体作为抽取的最 终实体, 包括 如下步骤: 步骤S131: 计算初步抽取的预期实体与词典中词语的编辑距离, 其计算公式如下:权 利 要 求 书 1/5 页 2 CN 114579709 A 2式中: leva,b(i,j)代表预期实体与词典中词语的编辑距离; a是初步抽取的预期实体; b 是词典中所包含的词语; i代表预期实体a的字符串下标, 从0开始; j代表词语b的字符串下 标, 从0开始; Max(i,j)代表i和j 之间的最大值, Min(i,j)代表i和j 之间的最小值; ai≠bj代 表a的第i个字符与b的第j个字符不相同的情况; 步骤S132: 判断预期实体与词典内每一个词语各自的编辑距离是否大于最小阈值, 若 大于最小阈值, 则进一步计算词典内大于所述最小阈值的词语与预期实体之间的余弦相似 度, 其计算公式如下: 式中: similarity(W,V)是初步抽取的预期实体和词典中词语 的余弦相似度; W是初步 抽取的预期实体预训练词向量; V是词典 中所包含的词语预训练词向量; Wi是初步抽取的预 期实体的预训练词向量第i个参数; V i是词典中包含的词语的预训练词向量第i个参数; n是 预训练词向量的维度; 步骤S133: 将词典中同时满足编辑距离大于最小阈值以及余弦相似度最高的词语作为 抽取的最终 实体, 其计算公式如下: 式中: S为自然语言问句; Owl(S)为问句中的最终实体; a为初步抽取的预期实体个数; c 为词典的总词数; d为余弦相似度计算的结果总数; Similarity(Si,Bj)为问句中第i个词与 词典中第j个词的相似度; Xd代表第d组词的相似度 运算结果; levSi,Bj(m,n)为问句中第i个 词与词典 中第j个词的编辑距离; Si代表问句中的i个词; len(Si)为问句中第i个词的长度; Bj代表词典中第j个词; len(Bj)为词典中第j个词的长度; [ ]为取整符号; ! Bj代表词典中 第j个词非最终 实体; 步骤S134: 将词典内与每一个预期实体匹配的词语作为实体抽取的最终实体的集合; 如果某一预期实体的编辑距离或者相似度中任意一个未达标, 则认为命名体识别模型错误 的识别了预期实体, 并将该 预期实体剔除。 3.如权利要求2所述的一种基于知识图谱的智能问答意图识别方法, 其特征在于, 所述 步骤S21具体包括: 步骤S211: 分词及停词; 将用户问句输入jieba分词器进行分词处理; 其中, 将预先构 建权 利 要 求 书 2/5 页 3 CN 114579709 A 3

.PDF文档 专利 一种基于知识图谱的智能问答意图识别方法

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于知识图谱的智能问答意图识别方法 第 1 页 专利 一种基于知识图谱的智能问答意图识别方法 第 2 页 专利 一种基于知识图谱的智能问答意图识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:53:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。