专利一种实体提及分类方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210254178.3 (22)申请日 2022.03.15 (71)申请人腾讯科技（深圳）有限公司地址 518000 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人蒋海云　 (74)专利代理机构北京派特恩知识产权代理有限公司 1 1270 专利代理师侯艳华　浦彩华 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种实体提及分类方法、装置、电子设备及存储介质 (57)摘要本申请提供了一种实体提及分类方法、装置、电子设备及存储介质；涉及人工智能技术；其中，方法包括：从实体提及集合中获取与待分类实体提及对应的多个兄弟实体提及；基于待分类实体提及以及多个兄弟实体提及得到第二图神经网络；基于待分类实体提及的初始特征表示、以及每个兄弟实体提及的特征表示，调用第二图神经网络进行第一迭代更新处理，得到待分类实体提及的更新后特征表示；基于待分类实体提及的更新后特征表示、以及多个实体提及类型的特征表示，确定待分类实体提及在多个实体提及类型上的预测概率；将预测概率大于第一概率阈值的实体提及类型，确定为待分类实体提及对应的实体提及类型。通过本申请能够提高实体提及分类的准确性。权利要求书5页说明书33页附图10页 CN 114661906 A 2022.06.24 CN 114661906 A 1.一种实体提及分类方法，其特征在于，所述方法包括：从实体提及集合中获取与待分类实体提及对应的多个兄弟实体提及；基于所述待分类实体提及以及所述多个兄弟实体提及更新第一图神经网络，得到第二图神经网络；基于所述待分类实体提及的初始特征表示、以及所述第二图神经网络中对应每个所述兄弟实体提及的特征表示，调用所述第二图神经网络进行第一迭代更新处理，得到所述待分类实体提及的更新后特征表示；基于所述待分类实体提及的更新后特征表示、以及所述第二图神经网络中对应多个实体提及类型的特征表示，确定所述待分类实体提及在所述多个实体提及类型上的预测概率；其中，所述多个实体提及类型包括所述实体提及集合中的每个实体提及在所述第二图神经网络中对应的实体提及类型；将所述预测概率大于第一概率阈值的实体提及类型，确定为所述待分类实体提及对应的实体提及类型。 2.根据权利要求1所述的方法，其特征在于，所述从实体提及集合中获取与待分类实体提及对应的多个兄弟实体提及，包括：从所述实体提及集合中确定出候选实体提及子集；其中，所述候选实体提及子集中的每个候选实体提及与所述待分类实体提及的上下文共享至少一个词，且所述候选实体提及子集包括的所述候选实体提及的数量小于所述实体提及集合包括的所述实体提及的数量；从所述候选实体提及子集中获取与所述待分类实体提及对应的多个兄弟实体提及；其中，每个所述兄弟实体提及与所述待分类实体提及的相似度大于相似度阈值。 3.根据权利要求2所述的方法，其特征在于，所述从所述候选实体提及子集中获取与所述待分类实体提及对应的多个兄弟实体提及，包括：确定每个所述候选实体提及与所述待分类实体提及之间的相似度；将所述相似度的降序排序中位于头部的部分候选实体提及，确定为所述待分类实体提及对应的兄弟实体提及。 4.根据权利要求3所述的方法，其特征在于，在所述相似度为词语相似度的情况下，所述确定每个所述候选实体提及与所述待分类实体提及之间的相似度，包括：对每个所述候选实体提及以及所述待分类实体提及分别进行编码处理，得到每个所述候选实体提及以及所述待分类实体提及分别对应的词向量；将每个所述候选实体提及与所述待分类实体提及分别对应的词向量之间的余弦距离，确定为每个所述候选实体提及与所述待分类实体提及之间的词语相似度。 5.根据权利要求3所述的方法，其特征在于，在所述相似度为类型相似度的情况下，所述确定每个所述候选实体提及与所述待分类实体提及之间的相似度，包括：基于每个所述候选实体提及以及所述待分类的实体提及，分别调用实体提及类型预测权　利　要　求　书 1/5 页 2 CN 114661906 A 2模型进行预测处理，得到每个所述候选实体提及以及所述待分类实体提及分别对应的预测处理结果；其中，所述实体提及类型预测模型是基于所述实体提及集合中的每个实体提及以及每个所述实体提及对应的实体提及类型训练得到的；将每个所述候选实体提及与所述待分类实体提及分别对应的预测处理结果之间的余弦距离，确定为每个所述候选实体提及与所述待分类实体提及之间的类型相似度。 6.根据权利要求1所述的方法，其特征在于，所述第一图神经网络包括第一图结构，所述第一图结构包括：基于训练集进行预训练得到的所述实体提及之间的边集、所述实体提及与对应的实体提及类型之间的边集、所述实体提及类型之间的边集、实体提及类型集合以及所述实体提及集合；所述基于所述待分类实体提及以及所述多个兄弟实体提及更新第一图神经网络，得到第二图神经网络，包括：将所述待分类实体提及添加至所述第一图结构中，并在所述第一图结构中将所述待分类实体提及与每个所述兄弟实体提及连接，得到第二图结构；基于所述第二图结构替换所述第一图神经网络中原有的所述第一图结构，得到第二图神经网络。 7.根据权利要求6所述的方法，其特征在于，所述训练集中的每条训练数据包括：所述实体提及、所述实体提及的上下文以及所述实体提及在所述上下文中对应的实体提及类型；在所述基于所述待分类实体提及以及所述多个兄弟实体提及更新所述第一图神经网络之前，所述方法还包括：基于所述训练集包括的多个所述实体提及，生成所述实体提及集合；基于所述训练集包括的多个所述实体提及类型，生成所述实体提及类型集合以及所述实体提及类型之间的边集；基于所述训练集包括的多个所述实体提及对应的实体提及类型，生成所述实体提及与对应的实体提及类型之间的边集。 8.根据权利要求1所述的方法，其特征在于，在所述调用所述第二图神经网络进行第一迭代更新处理之前，所述方法还包括：对所述待分类实体提及以及所述待分类实体提及的上下文进行编码处理，得到所述待分类实体提及以及所述待分类实体提及的上下文对应的词向量；采用不同的注意力机制分别对所述待分类实体提及以及所述待分类实体提及的上下文对应的词向量进行计算处理，得到所述待分类实体提及以及所述待分类实体提及的上下文分别对应的注意力特征表示；对所述待分类实体提及以及所述待分类实体提及的上下文分别对应的注意力特征表示进行拼接处理，将拼接处理结果确定为所述待分类实体提及的初始特征表示。 9.根据权利要求1所述的方法，其特征在于，所述第一迭代更新处理是通过调用所述第二图神经网络包括的第一神经网络实现的，所述第一图神经网络和所述第二神经网络均包括所述第一神经网络；在所述基于所述待分类实体提及的初始特征表示以及所述第二图神经网络中对应每权　利　要　求　书 2/5 页 3 CN 114661906 A 3

专利 一种实体提及分类方法、装置、电子设备及存储介质

专利一种实体提及分类方法、装置、电子设备及存储介质