说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210188411.2 (22)申请日 2022.02.28 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518044 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 黄锦鸿 黄泽谦 张伟 易磊  朱秀红  (74)专利代理 机构 北京同达信恒知识产权代理 有限公司 1 1291 专利代理师 王宁宁 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 16/36(2019.01)G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种嵌套实体识别方法、 装置、 电子设备和 存储介质 (57)摘要 本申请公开了一种嵌套实体识别方法、 装 置、 电子设备和存储介质, 涉及自然语言处理技 术领域。 该方法为: 获得待识别文本的文本分词 结果; 文本分词结果中包括目标中心分词和至少 一个属性分词; 将目标中心分词和至少一个属性 分词, 输入修饰边类型预测模型, 获得至少一个 属性分词各自对应的关联关系以及关系类型; 并 基于获得的关联关系以及关系类型, 构建目标拓 扑图; 对目标拓扑图进行遍历, 获得包括目标中 心分词的所有路径, 对所有路径进行分析处理, 获得待识别文本对应的嵌套实体。 可见, 本申请 提供的方案由于对所有分词进行是否对目标中 心分词修饰的相关处理, 因此可以准确且完整的 获取文本 所有的嵌套实体, 提升识别嵌套实体的 完整度。 权利要求书2页 说明书15页 附图6页 CN 114662493 A 2022.06.24 CN 114662493 A 1.一种嵌套实体识别方法, 其特 征在于, 所述方法包括: 获取待识别文本, 并对所述待识别文本进行分词处理, 获得文本分词结果; 所述文本分 词结果中包括目标中心分词和至少一个属性分词; 将所述目标中心分词和至少一个属性分词, 输入修饰边类型预测模型, 获得所述至少 一个属性分词各自对应的关联关系以及关系类型; 其中, 每个关联关系用于表征: 相应的属 性分词是否为所述目标中心分词的修饰词; 基于获得的所述关联关系以及关系类型, 构建目标拓扑图, 所述关联关系代表拓扑图 中的修饰边, 所述关系类型代 表所述修饰边的边类型; 对所述目标拓扑图进行遍历, 获得包括所述目标中心分词的所有路径, 并对所述所有 路径进行分析处理, 获得所述待识别文本对应的嵌套实体; 其中, 每个路径中的每个属性分 词用于修饰所述目标中心分词。 2.如权利要求1所述的方法, 其特征在于, 将所述目标中心分词和至少一个属性分词, 输入修饰边类型预测模型, 获得所述至少一个属性分词各自对应的关联关系以及关系类 型, 包括: 将所述目标中心分词和至少一个属性分词, 输入修饰边类型预测模型, 获得所述目标 中心分词对应的嵌入特 征, 和至少一个属性分词分别对应的嵌入特 征和分类特 征; 基于所述待识别文本的分词排列顺序, 将所述目标中心分词和所述至少一个属性分词 进行任意两 两组合, 获得相应的多个分词组对; 通过所述修饰边预测模型对所述多个分词组对执行特征融合操作, 获得所述一个分词 组对所对应的关联关系以及关系类型; 基于所述多个分词组对对应的关联关系以及 关系类型, 获得所述至少一个属性分词对 应的关联关系以及关系类型。 3.如权利要求2所述的方法, 其特征在于, 通过所述修饰边预测模型对所述多个分词组 对执行特征融合操作, 获得 所述一个分词组对所对应的关联关系以及关系类型, 包括: 通过所述修饰边类型预测模型中的多层感知网络, 将每个所述分词组对中属性分词对 应的嵌入特征和分类特征, 与所述 目标中心分词对应的嵌入特征进行融合, 获得每个所述 分词组对 对应的综合特 征; 通过所述修饰边类型预测模型中的分类网络层, 分别对每个所述综合特征进行分类处 理, 获得所述多个分词组对 对应的关联关系以及关系类型。 4.如权利要求2或3所述的方法, 其特征在于, 基于所述多个分词组对对应的关联关系 以及关系类型, 获得 所述至少一个属性分词对应的关联关系以及关系类型, 包括: 对所述多个分词组对中每 个分词组对, 分别执 行以下操作: 当确定所述分词组对仅包含一个属性分词时, 将所述分词组对对应的关联关系以及关 系类型作为所述 一个属性分词对应的关联关系以及关系类型; 当确定所述分词组对包含多个属性分词时, 将所述分词组对对应的关联关系以及 关系 类型作为所述多个属性分词中第一个属性分词对应的关联关系以及关系类型; 基于获得的所述一个属性分词对应的关联关系以及 关系类型, 或所述第 一个属性分词 对应的关联关系以及关系类型, 获得所述至少一个属性分词对应的关联关系以及关系类 型。权 利 要 求 书 1/2 页 2 CN 114662493 A 25.如权利要求1或2所述的方法, 其特征在于, 基于获得的所述关联关系以及 关系类型, 构建目标拓扑图, 包括: 基于获得的所述关联关系以及 关系类型, 确定出所述至少一个属性分词和所述目标中 心分词各自对应的排序位置; 基于所述至少一个属性分词和所述目标中心分词以及对应的排序位置, 按照以属性分 词为首, 以所述目标中心分词为尾的方向, 构建目标拓扑图。 6.如权利要求1或2所述的方法, 其特征在于, 对所述所有路径进行分析处理, 获得所述 待识别文本对应的嵌套实体, 包括: 对每条所述路径, 分别执 行以下操作: 确定一条路径是否满足预设筛选条件; 所述预设筛选条件用于从所述所有路径中选择 包括修饰所述目标中心分词的属 性分词对应的节点和所述目标中心分词对应的节点的路 径; 当确定所述路径满足所述预设筛 选条件时, 确定所述路径中的分词为嵌套实体; 基于获得的所述路径对应的嵌套实体, 获得待识别文本对应的嵌套实体。 7.如权利要求6所述的方法, 其特征在于, 所述预设筛选条件为: 筛选以所述目标中心 分词为尾节点, 以直接或间接修饰所述目标中心分词的属性分词为开头节点或 中间节点的 路径。 8.一种嵌套实体识别装置, 其特 征在于, 所述装置包括: 第一获得单元, 用于获取待识别文本, 并对所述待识别文本进行分词处理, 获得文本分 词结果; 所述文本分词结果中包括目标中心分词和至少一个属性分词; 第二获得单元, 用于将所述目标中心分词和至少一个属性分词, 输入修饰边类型预测 模型, 获得所述至少一个属性分词各自对应的关联关系以及关系类型; 其中, 每个 关联关系 用于表征: 相应的属性分词是否为所述目标中心分词的修饰词; 构建单元, 用于基于获得的所述关联关系以及关系类型, 构建目标拓扑图, 所述关联关 系代表拓扑图中的修饰边, 所述关系类型代 表所述修饰边的边类型; 处理单元, 用于对所述目标拓扑图进行遍历, 获得包括所述目标中心分词的所有路径, 并对所述所有路径进 行分析处理, 获得所述待识别文本对应的嵌套实体; 其中, 每个路径中 的每个属性分词用于修饰所述目标中心分词。 9.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特 征在于, 所述处 理器执行所述程序时实现权利要求1~7任一所述方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 其包括程序代码, 当程序产品在电子设备 上运行时, 所述 程序代码用于使所述电子设备 执行权利要求1~7中任一所述方法的步骤。 11.一种计算机程序产品, 其特征在于, 其特征在于, 其包括计算机指令, 该计算机指令 被电子设备的处 理器执行时实现权利要求1~7任一所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114662493 A 3

.PDF文档 专利 一种嵌套实体识别方法、装置、电子设备和存储介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种嵌套实体识别方法、装置、电子设备和存储介质 第 1 页 专利 一种嵌套实体识别方法、装置、电子设备和存储介质 第 2 页 专利 一种嵌套实体识别方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:53:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。