说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210254178.3 (22)申请日 2022.03.15 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518000 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 蒋海云  (74)专利代理 机构 北京派特恩知识产权代理有 限公司 1 1270 专利代理师 侯艳华 浦彩华 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种实体提及分类方法、 装置、 电子设备及 存储介质 (57)摘要 本申请提供了一种实体提及分类方法、 装 置、 电子设备及存储介质; 涉及人工智能技术; 其 中, 方法包括: 从实体提及集合中获取与待分类 实体提及对应的多个兄弟实体提及; 基于待分类 实体提及以及多个兄弟实体提及得到第二图神 经网络; 基于待分类实体提及的初始特征表示、 以及每个兄弟实体提及的特征表 示, 调用第二图 神经网络进行第一迭代更新处理, 得到待分类实 体提及的更新后特征表示; 基于待分类实体提及 的更新后特征表示、 以及多个实体提及类型的特 征表示, 确定待分类实体提及在 多个实体提及类 型上的预测概率; 将预测概率大于第一概率阈值 的实体提及类型, 确定为待分类实体提及对应的 实体提及类型。 通过本申请能够提高实体提及分 类的准确性。 权利要求书5页 说明书33页 附图10页 CN 114661906 A 2022.06.24 CN 114661906 A 1.一种实体提及分类方法, 其特 征在于, 所述方法包括: 从实体提及集 合中获取与待分类实体提及对应的多个兄弟实体提及; 基于所述待分类实体提及以及所述多个兄弟实体提及更新第 一图神经网络, 得到第 二 图神经网络; 基于所述待分类实体提及的初始特征表示、 以及所述第 二图神经网络中对应每个所述 兄弟实体提及的特征表示, 调用所述第二图神经网络进行第一迭代更新处理, 得到所述待 分类实体提及的更新后特 征表示; 基于所述待分类实体提及的更新后特征表示、 以及所述第 二图神经网络 中对应多个实 体提及类型的特征表示, 确定所述待分类实体提及在所述多个实体提及类型上的预测概 率; 其中, 所述多个实体提及类型包括所述实体提及集合中的每个实体提及在所述第 二图 神经网络中对应的实体提及类型; 将所述预测概率大于第 一概率阈值的实体提及类型, 确定为所述待分类实体提及对应 的实体提及类型。 2.根据权利要求1所述的方法, 其特 征在于, 所述从实体提及集 合中获取与待分类实体提及对应的多个兄弟实体提及, 包括: 从所述实体提及集 合中确定出候选实体提及子集; 其中, 所述候选实体提及子集中的每个候选实体提及与 所述待分类实体提及的上下文 共享至少一个词, 且所述候选实体提及子集包括的所述候选实体提及的数量小于所述实体 提及集合包括的所述实体提及的数量; 从所述候选实体提及子集中获取与 所述待分类实体提及对应的多个兄弟实体提及; 其 中, 每个所述兄弟实体提及与所述待分类实体提及的相似度大于相似度阈值。 3.根据权利要求2所述的方法, 其特 征在于, 所述从所述候选实体提及子集中获取与所述待分类实体提及对应的多个兄弟实体提 及, 包括: 确定每个所述候选实体提及与所述待分类实体提及之间的相似度; 将所述相似度的降序排序中位于头部的部分候选实体提及, 确定为所述待分类实体提 及对应的兄弟实体提及。 4.根据权利要求3所述的方法, 其特 征在于, 在所述相似度为词语相似度的情况下, 所述确定每个所述候选实体提及与 所述待分类 实体提及之间的相似度, 包括: 对每个所述候选实体提及以及所述待分类实体提及 分别进行编码处理, 得到每个所述 候选实体提及以及所述待分类实体提及分别对应的词向量; 将每个所述候选实体提及与 所述待分类实体提及分别对应的词向量之间的余弦距离, 确定为每 个所述候选实体提及与所述待分类实体提及之间的词语相似度。 5.根据权利要求3所述的方法, 其特 征在于, 在所述相似度为类型相似度的情况下, 所述确定每个所述候选实体提及与 所述待分类 实体提及之间的相似度, 包括: 基于每个所述候选实体提及以及所述待分类的实体提及, 分别调用实体提及类型预测权 利 要 求 书 1/5 页 2 CN 114661906 A 2模型进行预测处理, 得到每个所述候选实体提及以及所述待分类实体提及分别对应的预测 处理结果; 其中, 所述实体提及类型预测模型是基于所述实体提及集合中的每个实体提及以及每 个所述实体提及对应的实体提及类型训练得到的; 将每个所述候选实体提及与所述待分类实体提及分别对应的预测 处理结果之间的余 弦距离, 确定为每 个所述候选实体提及与所述待分类实体提及之间的类型相似度。 6.根据权利要求1所述的方法, 其特 征在于, 所述第一图神经网络包括第一图结构, 所述第一图结构包括: 基于训练集进行预训练 得到的所述实体提及之间的边集、 所述实体提及与对应的实体提及类型之间的边集、 所述 实体提及类型之间的边 集、 实体提及类型集 合以及所述实体提及集 合; 所述基于所述待分类实体提及以及所述多个兄弟实体提及更新第 一图神经网络, 得到 第二图神经网络, 包括: 将所述待分类实体提及添加至所述第 一图结构中, 并在所述第 一图结构中将所述待分 类实体提及与每 个所述兄弟实体提及连接, 得到第二图结构; 基于所述第 二图结构替换所述第 一图神经网络 中原有的所述第 一图结构, 得到第 二图 神经网络 。 7.根据权利要求6所述的方法, 其特 征在于, 所述训练集中的每条训练数据包括: 所述实体提及、 所述实体提及的上下文以及所述 实体提及 在所述上 下文中对应的实体提及类型; 在所述基于所述待分类实体提及以及所述多个兄弟实体提及更新所述第一图神经网 络之前, 所述方法还 包括: 基于所述训练集包括的多个所述实体提及, 生成所述实体提及集 合; 基于所述训练集包括的多个所述实体提及类型, 生成所述实体提及类型集合以及所述 实体提及类型之间的边 集; 基于所述训练集包括的多个所述实体提及对应的实体提及类型, 生成所述实体提及与 对应的实体提及类型之间的边 集。 8.根据权利要求1所述的方法, 其特 征在于, 在所述调用所述第二图神经网络进行第一迭代更新处 理之前, 所述方法还 包括: 对所述待分类实体提及以及所述待分类实体提及的上下文进行编码处理, 得到所述待 分类实体提及以及所述待分类实体提及的上 下文对应的词向量; 采用不同的注意力机制分别对所述待分类实体提及以及所述待分类实体提及的上下 文对应的词向量进行计算处理, 得到所述待分类实体提及以及所述待分类实体提及的上下 文分别对应的注意力特 征表示; 对所述待分类实体提及以及所述待分类实体提及的上下文分别对应的注意力特征表 示进行拼接处 理, 将拼接处 理结果确定为所述待分类实体提及的初始特 征表示。 9.根据权利要求1所述的方法, 其特 征在于, 所述第一迭代更新处理是通过调用所述第 二图神经网络包括的第 一神经网络实现的, 所述第一图神经网络和所述第二神经网络均包括所述第一神经网络; 在所述基于所述待分类实体提及的初始特征表示以及所述第二图神经网络中对应每权 利 要 求 书 2/5 页 3 CN 114661906 A 3

.PDF文档 专利 一种实体提及分类方法、装置、电子设备及存储介质

文档预览
中文文档 49 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共49页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种实体提及分类方法、装置、电子设备及存储介质 第 1 页 专利 一种实体提及分类方法、装置、电子设备及存储介质 第 2 页 专利 一种实体提及分类方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:53:44上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。