专利一种针对文本中实体的识别方法、装置及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210614127.7 (22)申请日 2022.05.31 (71)申请人北京明略昭辉科技有限公司地址 100082 北京市海淀区北三环西路25 号27号楼二层2020室 (72)发明人刘伟硕　于皓　张杰　 (74)专利代理机构北京超成律师事务所 1 1646 专利代理师邓超 (51)Int.Cl. G06F 40/295(2020.01) G06F 16/36(2019.01) G06F 40/289(2020.01) G06N 3/08(2006.01) G06F 40/30(2020.01) (54)发明名称一种针对文本中实体的识别方法、装置及存储介质 (57)摘要本申请提供了一种针对文本中实体的识别方法、装置及存储介质，包括：确定待识别文本的注意力向量；基于预设知识图谱，确定出待识别文本中的目标词汇对应的实体特征向量和至少一个第一知识表示向量；实体知识表示向量用于表征目标词汇与预设知识图谱中各个实体之间的关联关系；将待识别文本中的目标词汇对应的实体特征向量和每个实体第一知识表示向量输入至预先训练好的实体类别识别模型中的第一多头注意力层，确定每一个目标词汇对应的至少一个第二知识表示向量；将待识别文本的目标词汇对应的第二知识表示向量和注意力向量输入至聚合层，确定待识别文本中的目标词汇对应的实体类别。从而提高了对文本中目标词汇对应的实体类别确定的准确性。权利要求书2页说明书11页附图5页 CN 115017906 A 2022.09.06 CN 115017906 A 1.一种针对文本中实体的识别方法，其特征在于，所述识别方法包括：确定待识别文本的注意力向量；基于预设知识图谱，确定出所述待识别文本中的目标词汇对应的实体特征向量和至少一个第一知识表示向量；将所述待识别文本中的目标词汇对应的实体特征向量和每个所述第一知识表示向量输入至预先训练好的实体类别识别模型中的第一多头注意力层，确定所述目标词汇对应的第二知识表示向量；将所述待识别文本的目标词汇对应的第二知识表示向量和所述注意力向量输入至所述实体类别识别模型中的聚合层，确定所述待识别文本中的目标词汇对应的实体类别。 2.根据权利要求1所述的识别方法，其特征在于，通过以下步骤确定待识别文本的注意力向量：对获取到的所述待识别文本进行分词处理，得到分词后的所述待识别文本；将分词后的所述待识别文本输入至所述实体类别识别模型的第二多头注意力层，确定所述待识别文本的注意力向量。 3.根据权利要求1所述的识别方法，其特征在于，所述基于预设知识图谱，确定出所述待识别文本中的目标词汇对应的实体特征向量和至少一个第一知识表示向量，包括：从所述预设知识图谱中获取所述目标词汇对应的目标节点的实体特征向量，以及所述目标节点相关联的至少一个相邻节点；检测所述目标节点与所述相邻节点之间的节点指向方向；若所述指向方向为正向方向，则将所述相邻节点的实体特征向量与所述相邻节点的节点关系向量相减，确定出第一向量结果，将所述第一向量结果确定为所述第一知识表示向量；若所述指向方向为反向方向，则将所述相邻节点的实体特征向量与所述相邻节点的节点关系向量相加，确定出第二向量结果，将所述第一向量结果确定为所述第一知识表示向量。 4.根据权利要求1所述的识别方法，其特征在于，所述将所述待识别文本的目标词汇对应的第二知识表示向量和所述注意力向量输入至所述实体类别识别模型中的聚合层，确定所述待识别文本中的目标词汇对应的实体类别，包括：第一权重与所述注意力向量的乘积，确定出第一数值；第二权重与所述第二知识表示向量的乘积，确定出第二数值；所述第一数值与所述第二数值的加和，确定出第三数值；所述第三数值与激活函数的乘积，确定出所述待识别文本中的目标词汇对应的实体类别。 5.根据权利要求1所述的识别方法，其特征在于，通过以下步骤训练所述实体类别识别模型：获取多个样本词汇，以及每个所述样本词汇相对应的样本实体类别信息；基于所述多个样本词汇以及相对应的样本实体类别信息对初始神经网络模型进行迭代训练处理，确定出所述实体类别识别模型。 6.一种针对文本中实体的识别装置，其特征在于，所述识别装置包括：第一确定模块，用于确定待识别文本的注意力向量；权　利　要　求　书 1/2 页 2 CN 115017906 A 2第二确定模块，用于基于预设知识图谱，确定出所述待识别文本中的目标词汇对应的实体特征向量和至少一个第一知识表示向量；第三确定模块，用于将所述待识别文本中的目标词汇对应的实体特征向量和每个所述第一知识表示向量输入至预先训练好的实体类别识别模型中的第一多头注意力层，确定所述目标词汇对应的第二知识表示向量；实体类别确定模块，用于将所述待识别文本的目标词汇对应的第二知识表示向量和所述注意力向量输入至所述实体类别识别模型中的聚合层，确定所述待识别文本中的目标词汇对应的实体类别。 7.根据权利要求6所述的识别装置，其特征在于，所述第一确定模块通过以下步骤确定待识别文本的注意力向量；对获取到的所述待识别文本进行分词处理，得到分词后的所述待识别文本；将分词后的所述待识别文本输入至所述实体类别识别模型的第二多头注意力层，确定所述待识别文本的注意力向量。 8.根据权利要求6所述的识别装置，其特征在于，所述第二确定模块在用于所述基于预设知识图谱，确定出所述待识别文本中的目标词汇对应的实体特征向量和至少一个第一知识表示向量时，所述第二确定模块具体用于：从所述预设知识图谱中获取所述目标词汇对应的目标节点的实体特征向量，以及所述目标节点相关联的至少一个相邻节点；检测所述目标节点与所述相邻节点之间的节点指向方向；若所述指向方向为正向方向，则将所述相邻节点的实体特征向量与所述相邻节点的节点关系向量相减，确定出第一向量结果，将所述第一向量结果确定为所述第一知识表示向量；若所述指向方向为反向方向，则将所述目标词汇对应的实体特征向量与所述相邻节点的节点关系向量相加，确定出第二向量结果，将所述第一向量结果确定为所述第一知识表示向量。 9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求 1至5任一所述的针对文本中实体的识别方法的步骤。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求 1至5任一所述的针对文本中实体的识别方法的步骤。权　利　要　求　书 2/2 页 3 CN 115017906 A 3

专利 一种针对文本中实体的识别方法、装置及存储介质

专利一种针对文本中实体的识别方法、装置及存储介质