说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210096395.4 (22)申请日 2022.01.26 (71)申请人 中山大学 地址 510275 广东省广州市新港西路13 5号 (72)发明人 刘玉葆 李绍基  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 代理人 许庆胜 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/295(2020.01) G06F 40/216(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G16H 50/70(2018.01)G16H 70/00(2018.01) (54)发明名称 一种基于知识图谱的文本信息匹配方法、 装 置及相关 设备 (57)摘要 本申请公开了一种基于知识图谱的文本信 息匹配方法、 装置及相关设备, 所述方法包括: 通 过双向长短期记忆神经网络LSTM模型对目标文 本进行实体识别, 得到节点集合; 根据所述节点 集合和预设的知识图谱, 构建查询图; 将所述查 询图输入至训练后的图注意力网络模 型, 得到所 述查询图中各节点的嵌入表示; 根据所述知 识图 谱中各节点的嵌入表示和所述查询图中各节点 的嵌入表 示, 确定所述查询图中各节 点所对应的 目标实体信息。 本申请通过LS TM模型能够很好地 捕捉目标文本的上下文关系, 并充分利用了已有 的知识图谱中的结构信息来匹配目标文本信息 中的实体, 以及通过训练后的图注 意力网络来提 高匹配的准确度, 使 得能够较为准确地获取目标 文本的语义信息 。 权利要求书2页 说明书12页 附图3页 CN 114417016 A 2022.04.29 CN 114417016 A 1.一种基于知识图谱的文本信息匹配方法, 其特 征在于, 包括: 通过双向长短期记忆神经网络LSTM模型对目标文本进行实体识别, 得到节点集合, 所 述节点集合中的每一节点对应于一实体以及实体 类型; 根据所述节点集合和预设的知识图谱, 构建查询图, 所述查询图包含所述节点集合中 各节点之间的连边关系; 将所述查询图输入至训练后的图注意力网络模型, 得到所述查询图中各节点的嵌入表 示; 根据所述知识图谱中各节点的嵌入表示和所述查询图中各节点的嵌入表示, 确定所述 查询图中各节点所对应的目标实体信息; 其中, 所述知识图谱中各节点的嵌入表示为通过预先将所述知识图谱输入至所述训练 后的图注意力网络模型计算得到 。 2.根据权利要求1所述的方法, 其特征在于, 根据所述节点集合和预设的知识图谱, 构 建查询图的过程, 包括: 将所述节点集合划分为目标节点集合与候选节点集合, 所述目标节点集合中各节点包 含在所述预设的知识图谱中, 所述候选节点集合中任意节点均不包含在所述预设的知识图 谱中; 根据所述目标节点 集合、 所述候选节点 集合以及所述预设的知识图谱, 构建查询图。 3.根据权利要求2所述的方法, 其特征在于, 根据所述目标节点集合、 所述候选节点集 合以及所述预设的知识图谱, 构建查询图的过程, 包括: 对于所述目标节点集合中的每一节点对, 若所述节点对在所述知识图谱中存在连边, 则以所述节点对和所述连边的类型作为 一条连边记录, 添加到目标 连边集合; 根据所述候选节点集合和所述知识图谱, 确定候选连边集合, 所述候选连边集合中每 一连边的至少一个节点的实体 类型包含在所述 候选节点 集合中; 对于所述知识图谱的每一节点: 若所述节点存在连边, 且所述连边的类型包含在所述 候选连边 集合中, 则将所述节点的实体 类型添加到实体 类型集合中; 根据所述候选连边集合、 所述实体类型集合、 所述目标节点集合, 更新所述目标连边集 合; 其中, 以所述目标节点 集合以及所述目标 连边集合构成所述 查询图。 4.根据权利要求3所述的方法, 其特征在于, 根据所述候选节点集合和所述知识图谱, 确定候选连边 集合的过程, 包括: 对于所述 候选节点 集合中的每一节点: 获取所述节点所对应的实体 类型; 从所述知识图谱中确定与所述实体 类型的节点相连的连边; 以所述连边的类型, 以及构成所述连边的节点及节点的实体类型作为一条连边记录, 添加到候选连边 集合中。 5.根据权利要求3所述的方法, 其特征在于, 根据所述候选连边集合、 所述实体类型集 合、 所述目标节点 集合, 更新所述目标 连边集合的过程, 包括: 对于所述目标节点 集合中的每一节点: 若所述节点的实体类型包含在所述实体类型集合中, 则从所述候选连边集合中确定包权 利 要 求 书 1/2 页 2 CN 114417016 A 2含所述实体类型的第一节点的连边, 将构成所述连边的第二节点添加至所述目标节点集合 中, 并以所述节点、 所述节点的实体类型、 所述第二节点、 所述第二节点的实体类型以及所 述连边的类型作为 一条连边记录, 添加至所述目标 连边集合中。 6.根据权利要求2所述的方法, 其特征在于, 将所述节点集合划分为目标节点集合与候 选节点集合的过程, 包括: 对于所述节点 集合中的每一节点: 判断所述节点是否与所述知识图谱中的某一节点匹配; 若是, 则将所述节点添加到目标节点 集合; 若否, 将所述节点添加到候选节点 集合。 7.根据权利要求1所述的方法, 其特征在于, 所述通过双向长短期神经网络LSTM模型对 目标文本进行实体识别, 得到节点 集合的过程, 包括: 利用分词器对目标文本进行分词, 得到各个字的编码标识; 将各个字的编码标识输入至训练后的双向编码表示转换BERT ‑WWM模型, 得到句子向 量; 将所述句子向量输入至训练后的LSTM模型, 并将所述LSTM模型的输出输入至训练后的 CRF模型中, 得到目标文本中每 个实体对应于每 个标签的概 率; 以每个实体中概率值最大的标签作为所述实体的目标标签, 并根据各实体以及每一实 体的目标 标签, 生成所述节点 集合。 8.一种基于知识图谱的文本信息匹配装置, 其特 征在于, 包括: 实体识别单元, 用于通过双向长短期神经网络LSTM模型对目标文本进行实体识别, 得 到节点集合, 所述节点 集合中的每一节点对应于一实体以及实体 类型; 查询图构建单元, 用于根据 所述节点集合和预设的知识图谱, 构建查询图, 所述查询图 包含所述节点 集合中各节点之间的连边关系; 预测单元, 用于将所述查询图输入至训练后的图注意力网络模型, 得到所述查询图中 各节点的嵌入表示; 匹配单元, 用于根据 所述知识图谱中各节点的嵌入表示和所述查询图中各节点的嵌入 表示, 确定所述 查询图中各节点所对应的目标实体信息; 其中, 所述知识图谱中各节点的嵌入表示为通过预测单元预先将所述知识图谱输入至 所述训练后的图注意力网络模型计算得到 。 9.一种基于知识图谱的文本信息匹配设备, 其特 征在于, 包括: 存 储器和处 理器; 所述存储器, 用于存 储程序; 所述处理器, 用于执行所述程序, 实现如权利要求1~7中任一项所述的基于知识图谱 的文本信息匹配方法的各个步骤。 10.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理器执 行时, 实现如权利要求1~7中任一项所述的基于知识图谱的文本信息匹配方法的各个步 骤。权 利 要 求 书 2/2 页 3 CN 114417016 A 3

.PDF文档 专利 一种基于知识图谱的文本信息匹配方法、装置及相关设备

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于知识图谱的文本信息匹配方法、装置及相关设备 第 1 页 专利 一种基于知识图谱的文本信息匹配方法、装置及相关设备 第 2 页 专利 一种基于知识图谱的文本信息匹配方法、装置及相关设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:52:58上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。